همبستگی کانونی: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده

درخط

نسخهٔ ‏۱ فوریهٔ ۲۰۲۳، ساعت ۲۰:۰۸

در آمار ، آنالیز همبستگی کانونی ( CCA )، که آنالیز متغیرهای کانونی نیز نامیده می‌شود، راهی برای دریافت اطلاعات از ماتریس‌های کوواریانس متقاطع(cross-covariance matrices) است . اگر دو بردار X = ( X ₁ , . . .، X _n ) و Y = ( Y ₁ , . . .، Y _m ) داشته باشیم که از متغیرهای تصادفی تشکیل شده اند ، و بین متغیرها همبستگی وجود دارد، سپس تحلیل همبستگی کانونی، ترکیبات خطی X و Y را پیدا می کند که حداکثر همبستگی را با یکدیگر دارند. ^[۱] TR Knapp خاطرنشان می کند که "تقریباً تمام آزمون های پارامتری مهم که معمولاً با آنها مواجه می شوند را می توان به عنوان موارد ویژه ای از تجزیه و تحلیل همبستگی متعارف در نظر گرفت، که روش کلی برای بررسی روابط بین دو مجموعه از متغیرها است." ^[۲] این روش برای اولین بار توسط هارولد هتلینگ در سال 1936 معرفی شد، ^[۳] اگرچه در زمینه زوایای بین تخت (angles between flats)، مفهوم ریاضی توسط جردن در سال 1875 منتشر شد.

تعریف

با توجه به دو بردار ستونی $X=(x_{1},\dots ,x_{n})^{T}$ و $Y=(y_{1},\dots ,y_{m})^{T}$ از متغیرهای تصادفی، می توان کوواریانس متقاطع را تعریف کرد $\Sigma _{XY}=\operatorname {cov} (X,Y)$ که یک ماتریس $n\times m$ می دهد که $(i,j)$ ورودی کوواریانس است $\operatorname {cov} (x_{i},y_{j})$ . در عمل، ماتریس کوواریانس را بر اساس داده‌های نمونه‌برداری شده $X$ و $Y$ تخمین می‌زنیم (یعنی از یک جفت ماتریس داده).

تحلیل همبستگی کانونی به دنبال بردارهای ( $a\in \mathbb {R} ^{n}$ ) $a$ و ( $b\in \mathbb {R} ^{m}$ ) $b$ است به طوری که متغیرهای تصادفی $a^{T}X$ و $b^{T}Y$ همبستگی $\rho =\operatorname {corr} (a^{T}X,b^{T}Y)$ را به حداکثر برساند. متغیرهای تصادفی (اسکالر) $U=a^{T}X$ و $V=b^{T}Y$ اولین جفت متغیرهای کانونی هستند . سپس به دنبال بردارهایی می‌گردیم که همان همبستگی را با این محدودیت که با اولین جفت متغیرهای کانونی همبستگی ندارند، به حداکثر برسانند. این کار جفت دوم متغیرهای کانونی را به ما می دهد. این روش ممکن است تا $\min\{m,n\}$ بار به طول انجامد.

محاسبات

مشتق

فرض کنید $\Sigma _{XY}$ ماتریس کوواریانس متقاطع برای هر جفت (بردار شکل) متغیر تصادفی $X$ و $Y$ باشد. تابع هدف برای به حداکثر رساندن رابطه ی زیر می باشد:

$\rho ={\frac {a^{T}\Sigma _{XY}b}{{\sqrt {a^{T}\Sigma _{XX}a}}{\sqrt {b^{T}\Sigma _{YY}b}}}}.$

اولین قدم تعریف تغییر مبنا است بنابراین داریم:

$c=\Sigma _{XX}^{1/2}a,$

$d=\Sigma _{YY}^{1/2}b.$

با جایگذاری دو رابطه بالا در رابطه اصلی داریم:

$\rho ={\frac {c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}d}{{\sqrt {c^{T}c}}{\sqrt {d^{T}d}}}}.$

حال با توجه به نابرابری کوشی-شوارتز داریم:

$\left(c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}\right)(d)\leq \left(c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c\right)^{1/2}\left(d^{T}d\right)^{1/2},$

$\rho \leq {\frac {\left(c^{T}\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}c\right)^{1/2}}{\left(c^{T}c\right)^{1/2}}}.$

اگر بردارها $d$ و $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c$ خطی باشند برابری وجود دارد . علاوه بر این، اگر $c$ بردار ویژه با حداکثر مقدار ویژه برای ماتریس $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$ باشد حداکثر همبستگی به دست می آید. جفت های بعدی با استفاده از مقادیر ویژه قدرهای کاهشی (decreasing magnitudes) پیدا می شوند. متعامد بودن با تقارن ماتریس های همبستگی تضمین می شود.

راه دیگری برای مشاهده این محاسبات این است که $c$ و $d$ بردارهای منفرد( singular vectors) چپ و راست ماتریس همبستگی X و Y باشند که مربوط به بالاترین مقدار منفرد(singular value) هستند.

حل

حل آن به شکل زیر می باشد:

c یک بردار ویژه $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$ می باشد
d متناسب است با $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$

متقابلا داریم:

d یک بردار ویژه $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$ می باشد

c متناسب است با $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$

با معکوس کردن تغییر مختصات، داریم:

a یک بردار ویژه $\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}$ می باشد
a متناسب است با $\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}$
b یک بردار ویژه $\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY},$ می باشد
b متناسب است با $\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY},$

متغیرهای متعارف به صورت زیر تعریف می شوند:

$U=c^{T}\Sigma _{XX}^{-1/2}X=a^{T}X$

$V=d^{T}\Sigma _{YY}^{-1/2}Y=b^{T}Y$

کاربرد های عملی

یک استفاده معمولی برای همبستگی متعارف در زمینه تجربی این است که دو مجموعه از متغیرها را در نظر بگیرید و ببینید چه چیزی در بین دو مجموعه مشترک است. ^[۴] به عنوان مثال، در تست روان‌شناختی، می‌توان دو تست شخصیت چند بعدی را انجام داد، مانند پرسشنامه شخصیت چند مرحله‌ای مینه‌سوتا (MMPI-2) و NEO . با مشاهده اینکه چگونه عوامل MMPI-2 با عوامل NEO ارتباط دارند، می‌توان بینشی در مورد ابعاد مشترک بین آزمون‌ها و میزان واریانس به دست آورد. برای مثال، ممکن است متوجه شویم که یک بعد برون گرایی یا روان رنجورخویی مقدار قابل توجهی از واریانس مشترک بین این دو آزمون را به خود اختصاص داده است.

همچنین می توان از تحلیل همبستگی کانونی برای تولید یک معادله مدل استفاده کرد که دو مجموعه از متغیرها را به هم مرتبط می کند، برای مثال مجموعه ای از معیارهای عملکرد و مجموعه ای از متغیرهای توضیحی، یا مجموعه ای از خروجی ها و مجموعه ای از ورودی ها. محدودیت‌های محدودیتی را می‌توان بر روی چنین مدلی اعمال کرد تا اطمینان حاصل شود که الزامات نظری یا شرایط شهودی بدیهی را منعکس می‌کند. این نوع مدل به عنوان مدل حداکثر همبستگی(maximum correlation) شناخته می شود.

مثال

فرض کنید $X=x_{1}$ با امید ریاضی صفر، به عنوان مثال، $\operatorname {E} (X)=0$ .

اگر $Y=X$ ، یعنی $X$ و $Y$ کاملاً همبسته هستند، پس، به عنوان مثال، $a=1$ و $b=1$ ، به طوری که اولین (و تنها در این مثال) جفت متغیر کانونی است $U=X$ و $V=Y=X$ .
اگر $Y=-X$ ، یعنی $X$ و $Y$ کاملاً ضد همبسته(anticorrelated) هستند، پس، به عنوان مثال، $a=1$ و $b=-1$ ، به طوری که اولین (و تنها در این مثال) جفت متغیر کانونی برابر $U=X$ و $V=-Y=X$ است.

ما متوجه می شویم که در هر دو مورد $U=V$ ، که نشان می دهد که تحلیل همبستگی کانونی با متغیرهای همبسته و ضدهمبسته به طور مشابه رفتار می کند.

منابع

↑ Härdle, Wolfgang; Simar, Léopold (2007). "Canonical Correlation Analysis". Applied Multivariate Statistical Analysis. pp. 321–330. CiteSeerX 10.1.1.324.403. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.
↑ Knapp, T. R. (1978). "Canonical correlation analysis: A general parametric significance-testing system". Psychological Bulletin. 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410.
↑ Hotelling, H. (1936). "Relations Between Two Sets of Variates". Biometrika. 28 (3–4): 321–377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955.
↑ Sieranoja, S.; Sahidullah, Md; Kinnunen, T.; Komulainen, J.; Hadid, A. (July 2018). "Audiovisual Synchrony Detection with Optimized Audio Features" (PDF). IEEE 3rd Int. Conference on Signal and Image Processing (ICSIP 2018): 377–381. doi:10.1109/SIPROCESS.2018.8600424. ISBN 978-1-5386-6396-7.

[1] Härdle, Wolfgang; Simar, Léopold (2007). "Canonical Correlation Analysis". Applied Multivariate Statistical Analysis. pp. 321–330. CiteSeerX 10.1.1.324.403. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.

[2] Knapp, T. R. (1978). "Canonical correlation analysis: A general parametric significance-testing system". Psychological Bulletin. 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410.

[3] Hotelling, H. (1936). "Relations Between Two Sets of Variates". Biometrika. 28 (3–4): 321–377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955.

[4] Sieranoja, S.; Sahidullah, Md; Kinnunen, T.; Komulainen, J.; Hadid, A. (July 2018). "Audiovisual Synchrony Detection with Optimized Audio Features" (PDF). IEEE 3rd Int. Conference on Signal and Image Processing (ICSIP 2018): 377–381. doi:10.1109/SIPROCESS.2018.8600424. ISBN 978-1-5386-6396-7.

[۱]

[۲]

[۳]

[۴]

نسخهٔ ‏۱ فوریهٔ ۲۰۲۳، ساعت ۱۹:۴۴ ویرایش Reza.Vahidimajd (بحث \| مشارکت‌ها) ۱۲ ویرایش‌ها منابع برچسب: ویرایشگر دیداری → تفاوت قدیمی‌تر		نسخهٔ ‏۱ فوریهٔ ۲۰۲۳، ساعت ۲۰:۰۸ ویرایش خنثی‌سازی Reza.Vahidimajd (بحث \| مشارکت‌ها) ۱۲ ویرایش‌ها منابع برچسب: ویرایشگر دیداری تفاوت جدیدتر ←
خط ۱:		خط ۱:
	در [[آمار]] ، '''آنالیز همبستگی کانونی''' ( '''CCA''' )، که '''آنالیز متغیرهای کانونی''' نیز نامیده می‌شود، راهی برای دریافت اطلاعات از ماتریس‌های کوواریانس متقاطع([[:en:Cross-covariance_matrix\|cross-covariance matrices]]) است . اگر دو بردار ''X'' = ( ''X'' <sub>1</sub> , . . .، ''X'' <sub>''n''</sub> ) و ''Y'' = ( ''Y'' <sub>1</sub> , . . .، ''Y'' <sub>''m''</sub> ) داشته باشیم که از [[متغیر تصادفی\|متغیرهای تصادفی]] تشکیل شده اند ، و بین متغیرها [[همبستگی و وابستگی\|همبستگی]] وجود دارد، سپس تحلیل همبستگی کانونی، ترکیبات خطی ''X'' و ''Y'' را پیدا می کند که حداکثر همبستگی را با یکدیگر دارند. <ref>{{Cite book}}</ref> TR Knapp خاطرنشان می کند که "تقریباً تمام [[آمار پارامتری\|آزمون های پارامتری]] مهم که معمولاً با آنها مواجه می شوند را می توان به عنوان موارد ویژه ای از تجزیه و تحلیل همبستگی متعارف در نظر گرفت، که روش کلی برای بررسی روابط بین دو مجموعه از متغیرها است." <ref>{{Cite journal\|last=Knapp\|first=T. R.\|year=1978\|title=Canonical correlation analysis: A general parametric significance-testing system\|journal=Psychological Bulletin\|volume=85\|issue=2\|pages=410–416\|doi=10.1037/0033-2909.85.2.410}}</ref> این روش برای اولین بار توسط [[هارولد هتلینگ]] در سال 1936 معرفی شد، <ref>{{Cite journal\|last=Hotelling\|first=H.\|year=1936\|title=Relations Between Two Sets of Variates\|journal=Biometrika\|volume=28\|issue=3–4\|pages=321–377\|doi=10.1093/biomet/28.3-4.321\|jstor=2333955}}</ref> اگرچه در زمینه زوایای بین تخت ([[:en:Angles_between_flats\|angles between flats]])، مفهوم ریاضی توسط جردن در سال 1875 منتشر شد.		در [[آمار]] ، '''آنالیز همبستگی کانونی''' ( '''CCA''' )، که '''آنالیز متغیرهای کانونی''' نیز نامیده می‌شود، راهی برای دریافت اطلاعات از ماتریس‌های کوواریانس متقاطع([[:en:Cross-covariance_matrix\|cross-covariance matrices]]) است . اگر دو بردار ''X'' = ( ''X'' <sub>1</sub> , . . .، ''X'' <sub>''n''</sub> ) و ''Y'' = ( ''Y'' <sub>1</sub> , . . .، ''Y'' <sub>''m''</sub> ) داشته باشیم که از [[متغیر تصادفی\|متغیرهای تصادفی]] تشکیل شده اند ، و بین متغیرها [[همبستگی و وابستگی\|همبستگی]] وجود دارد، سپس تحلیل همبستگی کانونی، ترکیبات خطی ''X'' و ''Y'' را پیدا می کند که حداکثر همبستگی را با یکدیگر دارند. <ref>{{Cite book\|doi=10.1007/978-3-540-72244-1_14\|chapter=Canonical Correlation Analysis\|title=Applied Multivariate Statistical Analysis\|pages=321–330\|year=2007\|isbn=978-3-540-72243-4\|first1=Wolfgang\|last1=Härdle\|first2=Léopold\|last2=Simar\|citeseerx=10.1.1.324.403}}</ref> TR Knapp خاطرنشان می کند که "تقریباً تمام [[آمار پارامتری\|آزمون های پارامتری]] مهم که معمولاً با آنها مواجه می شوند را می توان به عنوان موارد ویژه ای از تجزیه و تحلیل همبستگی متعارف در نظر گرفت، که روش کلی برای بررسی روابط بین دو مجموعه از متغیرها است." <ref>{{Cite journal\|last=Knapp\|first=T. R.\|year=1978\|title=Canonical correlation analysis: A general parametric significance-testing system\|journal=Psychological Bulletin\|volume=85\|issue=2\|pages=410–416\|doi=10.1037/0033-2909.85.2.410}}</ref> این روش برای اولین بار توسط [[هارولد هتلینگ]] در سال 1936 معرفی شد، <ref>{{Cite journal\|last=Hotelling\|first=H.\|year=1936\|title=Relations Between Two Sets of Variates\|journal=Biometrika\|volume=28\|issue=3–4\|pages=321–377\|doi=10.1093/biomet/28.3-4.321\|jstor=2333955}}</ref> اگرچه در زمینه زوایای بین تخت ([[:en:Angles_between_flats\|angles between flats]])، مفهوم ریاضی توسط جردن در سال 1875 منتشر شد.

	== تعریف ==		== تعریف ==