همبستگی کانونی
در آمار، آنالیز همبستگی کانونی (CCA)، که آنالیز متغیرهای کانونی نیز نامیده میشود، راهی برای دریافت اطلاعات از ماتریسهای کوواریانس متقاطع(cross-covariance matrices) است. اگر دو بردار X = (X 1 , . . .، X n) و Y = (Y 1 , . . .، Y m) داشته باشیم که از متغیرهای تصادفی تشکیل شدهاند، و بین متغیرها همبستگی وجود دارد، سپس تحلیل همبستگی کانونی، ترکیبات خطی X و Y را پیدا میکند که حداکثر همبستگی را با یکدیگر دارند.[۱] TR Knapp خاطرنشان میکند که «تقریباً تمام آزمونهای پارامتری مهم که معمولاً با آنها مواجه میشوند را میتوان به عنوان موارد ویژه ای از تجزیه و تحلیل همبستگی متعارف در نظر گرفت، که روش کلی برای بررسی روابط بین دو مجموعه از متغیرها است.»[۲] این روش برای اولین بار توسط هارولد هتلینگ در سال ۱۹۳۶ معرفی شد،[۳] اگرچه در زمینه زوایای بین تخت (angles between flats)، مفهوم ریاضی توسط جردن در سال ۱۸۷۵ منتشر شد.
تعریف
[ویرایش]با توجه به دو بردار ستونی و از متغیرهای تصادفی، میتوان کوواریانس متقاطع را تعریف کرد که یک ماتریس میدهد که ورودی کوواریانس است . در عمل، ماتریس کوواریانس را بر اساس دادههای نمونهبرداری شده و تخمین میزنیم (یعنی از یک جفت ماتریس داده).
تحلیل همبستگی کانونی به دنبال بردارهای () و () است به طوری که متغیرهای تصادفی و همبستگی را به حداکثر برساند. متغیرهای تصادفی (اسکالر) و اولین جفت متغیرهای کانونی هستند. سپس به دنبال بردارهایی میگردیم که همان همبستگی را با این محدودیت که با اولین جفت متغیرهای کانونی همبستگی ندارند، به حداکثر برسانند. این کار جفت دوم متغیرهای کانونی را به ما میدهد. این روش ممکن است تا بار به طول انجامد.
محاسبات
[ویرایش]مشتق
[ویرایش]فرض کنید ماتریس کوواریانس متقاطع برای هر جفت (بردار شکل) متغیر تصادفی و باشد. تابع هدف برای به حداکثر رساندن رابطهٔ زیر میباشد:
اولین قدم تعریف تغییر مبنا است بنابراین داریم:
با جایگذاری دو رابطه بالا در رابطه اصلی داریم:
حال با توجه به نابرابری کوشی-شوارتز داریم:
اگر بردارها و خطی باشند برابری وجود دارد. علاوه بر این، اگر بردار ویژه با حداکثر مقدار ویژه برای ماتریس باشد حداکثر همبستگی به دست میآید. جفتهای بعدی با استفاده از مقادیر ویژه قدرهای کاهشی (decreasing magnitudes) پیدا میشوند. متعامد بودن با تقارن ماتریسهای همبستگی تضمین میشود.
راه دیگری برای مشاهده این محاسبات این است که و بردارهای منفرد(singular vectors) چپ و راست ماتریس همبستگی X و Y باشند که مربوط به بالاترین مقدار منفرد(singular value) هستند.
حل
[ویرایش]حل آن به شکل زیر میباشد:
- c یک بردار ویژه میباشد
- d متناسب است با
متقابلاً داریم:
- d یک بردار ویژه میباشد
- c متناسب است با
با معکوس کردن تغییر مختصات، داریم:
- a یک بردار ویژه میباشد
- a متناسب است با
- b یک بردار ویژه میباشد
- b متناسب است با
متغیرهای متعارف به صورت زیر تعریف میشوند:
کاربردهای عملی
[ویرایش]یک استفاده معمولی برای همبستگی متعارف در زمینه تجربی این است که دو مجموعه از متغیرها را در نظر بگیرید و ببینید چه چیزی در بین دو مجموعه مشترک است.[۴] به عنوان مثال، در تست روانشناختی، میتوان دو تست شخصیت چند بعدی را انجام داد، مانند پرسشنامه شخصیت چند مرحلهای مینهسوتا (MMPI-2) و NEO. با مشاهده اینکه چگونه عوامل MMPI-2 با عوامل NEO ارتباط دارند، میتوان بینشی در مورد ابعاد مشترک بین آزمونها و میزان واریانس به دست آورد. برای مثال، ممکن است متوجه شویم که یک بعد برون گرایی یا روان رنجورخویی مقدار قابل توجهی از واریانس مشترک بین این دو آزمون را به خود اختصاص دادهاست.
همچنین میتوان از تحلیل همبستگی کانونی برای تولید یک معادله مدل استفاده کرد که دو مجموعه از متغیرها را به هم مرتبط میکند، برای مثال مجموعه ای از معیارهای عملکرد و مجموعه ای از متغیرهای توضیحی، یا مجموعه ای از خروجیها و مجموعه ای از ورودیها. محدودیتهای محدودیتی را میتوان بر روی چنین مدلی اعمال کرد تا اطمینان حاصل شود که الزامات نظری یا شرایط شهودی بدیهی را منعکس میکند. این نوع مدل به عنوان مدل حداکثر همبستگی(maximum correlation) شناخته میشود.
مثال
[ویرایش]فرض کنید با امید ریاضی صفر، به عنوان مثال، .
- اگر ، یعنی و کاملاً همبسته هستند، پس، به عنوان مثال، و ، به طوری که اولین (و تنها در این مثال) جفت متغیر کانونی است و .
- اگر ، یعنی و کاملاً ضد همبسته(anticorrelated) هستند، پس، به عنوان مثال، و ، به طوری که اولین (و تنها در این مثال) جفت متغیر کانونی برابر و است.
ما متوجه میشویم که در هر دو مورد ، که نشان میدهد که تحلیل همبستگی کانونی با متغیرهای همبسته و ضدهمبسته بهطور مشابه رفتار میکند.
منابع
[ویرایش]- ↑ Härdle, Wolfgang; Simar, Léopold (2007). "Canonical Correlation Analysis". Applied Multivariate Statistical Analysis. pp. 321–330. CiteSeerX 10.1.1.324.403. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.
- ↑ Knapp, T. R. (1978). "Canonical correlation analysis: A general parametric significance-testing system". Psychological Bulletin. 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410.
- ↑ Hotelling, H. (1936). "Relations Between Two Sets of Variates". Biometrika. 28 (3–4): 321–377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955.
- ↑ Sieranoja, S.; Sahidullah, Md; Kinnunen, T.; Komulainen, J.; Hadid, A. (July 2018). "Audiovisual Synchrony Detection with Optimized Audio Features" (PDF). IEEE 3rd Int. Conference on Signal and Image Processing (ICSIP 2018): 377–381. doi:10.1109/SIPROCESS.2018.8600424. ISBN 978-1-5386-6396-7.