تحلیل مؤلفه‌های اصلی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو
نقاط سبز رنگ، نمونه‌هایی از توزیع نرمال دومتغیره‌اند و محور آبی رنگ، مختصات جدید در راستای قرار گرفتن بیشترین تغییرات نمونه بر روی مؤلفه‌های اصلی است.

تحلیل مولفه‌های اصلی (Principal Component Analysis - PCA) تبدیلی در فضای برداری است، که غالباً برای کاهش ابعاد مجموعهٔ داده‌ها مورد استفاده قرار می‌گیرد.

تحلیل مولفه‌های اصلی در سال ۱۹۰۱ توسط کارل پیرسون [۱] ارائه شد. این تحلیل شامل تجزیه مقدارهای ویژهٔ ماتریس کواریانس می‌باشد.

جزئیات[ویرایش]

تحلیل مولفه‌های اصلی در تعریف ریاضی [۲] یک تبدیل خطی متعامد است که داده را به دستگاه مختصات جدید می‌برد به طوری که بزرگترین واریانس داده بر روی اولین محور مختصات، دومین بزرگترین واریانس بر روی دومین محور مختصات قرار می‌گیرد و همین طور برای بقیه. تحلیل مولفه‌های اصلی می‌تواند برای کاهش ابعاد داده مورد استفاده قرار بگیرد، به این ترتیب مولفه‌هایی از مجموعه داده را که بیشترین تاثیر در واریانس را دارند حفظ می‌کند. برای ماتریس داده X^{T} با میانگین تجربی صفر، که هر سطر یک مجموعه مشاهده و هر ستون داده‌های مربوط به یک شاخصه است، تحلیل مولفه‌های اصلی به صورت زیر تعریف می‌شود:

  • Y^{T}=X^{T}W = V\Sigma

به طوری که V\Sigma W^{T} تجزیه مقدارهای منفرد ماتریس X^{T} می‌باشد.

محدودیتهای تحلیل مولفه‌های اصلی[ویرایش]

استفاده از تحلیل مولفه‌های اصلی منوط به فرضهایی است که در نظر گرفته می‌شود. از جمله:

  • فرض خطی بودن

ما فرض می کنیم مجموعه داده ترکیب خطی پایه‌هایی خاص است.

  • فرض بر این که میانگین و کواریانس از نظر احتمالاتی قابل اتکا هستند.
  • فرض بر این که واریانس شاخصه اصلی داده است.

محاسبه مولفه‌های اصلی با استفاده از ماتریس کواریانس[ویرایش]

بر اساس تعریف ارائه شده از تحلیل مولفه‌های اصلی، هدف از این تحلیل انتقال مجموعه داده X با ابعاد M به داده Y با ابعاد L است. بنابرین فرض بر این است که ماتریس X از بردارهای X_1 \dots X_N تشکیل شده است که هر کدام به صورت ستونی در ماتریس قرار داده شده است. بنابرین با توجه به ابعاد بردارها (M) ماتریس داده‌ها به صورت M \times N است.

محاسبه میانگین تجربی و نرمال سازی داده‌ها[ویرایش]

نتیجه میانگین تجربی، برداری است که به صورت زیر به دست می‌آید:

  • u[m]=\frac{1}{N}\sum^{N}_{i=1}{X[m,i]}

که به طور مشخص میانگین تجربی روی سطرهای ماتریس اعمال شده است.
سپس ماتریس فاصله تا میانگین به صورت زیر به دست می‌آید:

  • B = X-uh

که h برداری با اندازه 1 \times N با مقدار ۱ در هرکدام از درایه‌ها است.

محاسبه ماتریس کواریانس[ویرایش]

ماتریس کواریانس C با ابعاد M \times M به صورت زیر به دست می‌آید:

محاسبه مقادیر ویژه ماتریس کواریانس و بازچینی بردارهای ویژه[ویرایش]

در این مرحله، مقادیر ویژه و بردارهای ویژه ماتریس کواریانس، C، به دست می‌آید.

  • V^{-1}CV=D

V ماتریس بردارهای ویژه و D ماتریس قطری است که درایه‌های قطر آن مقادیر ویژه هستند. آنجنان که مشخص است، هر مقدار ویژه متناظر با یک بردار ویژه است. به این معنا که ماتریس V ماتریسی M \times M است که ستونهای آن بردارهای ویژه می‌باشند و بردار ویژه V_q در ستون qام قرار دارد و مقدار ویژه qام یعنی درایهٔ \lambda_q = D_{q,q} متناظر با آن است. بازچینی بردارهای ویژه بر اساس اندازهٔ مقادیر ویژه متناظر با آنها صورت می‌گیرد. یعنی بر اساس ترتیب کاهشی مقادیر ویژه، بردارهای ویژه بازچینی می‌شوند. یعنی p\leq q\Rightarrow \lambda_p \leq \lambda_q

انتخاب زیرمجموعه‌ای از بردارهای ویژه به عنوان پایه[ویرایش]

تحلیل مقادیر ویژه ماتریس کواریانس

انتخاب زیرمجموعه‌ای از بردارهای ویژه با تحلیل مقادیر ویژه صورت می‌گیرد. زیرمجموعه نهایی با توجه به بازچینی مرحله قبل به صورت V_1\dots V_l انتخاب می‌شود. در اینجا می‌توان از انرژی تجمعی استفاده کرد که طبق آن

  • g[m]=\sum_{q=1}^m{\lambda_q}

انتخاب l باید به صورتی باشد که حداقل مقدار ممکن را داشته باشد و در عین حال g مقدار قابل قبولی داشته باشد. به طور مثال می‌توان حداقل l را انتخاب کرد که

  • g[m=l] \leq 90%

بنابرین خواهیم داشت:

  • W[p,q] = V[p,q], p=1\dots M ,q = 1\dots l

انتقال داده به فضای جدید[ویرایش]

برای این کار ابتدا تبدیلات زیر را انجام می دهیم: ماتریس s_{M,1} انحراف معیار مجموعه داده است که می‌تواند به صورت زیر به دست بیاید:

  • s[i] =\sqrt{C[i,i]}

سپس داده به صورت زیر تبدیل می‌شود:

  • Z = \frac{B}{s}'

که ماتریسهای C و B در بالا توضیح داده شده اند. داده‌ها می‌توانند به ترتیب زیر به فضای جدید برده شوند:

  • Y = W^{\ast}.Z

نرم‌افزارها[ویرایش]

جستارهای وابسته[ویرایش]

پانویس[ویرایش]

  1. Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". Philosophical Magazine 2 (6): 559–572.
  2. Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4

منابع[ویرایش]

مطالعه بیشتر[ویرایش]

همه چیز درباره ی کاهش بعد داده ها با روش PCA - فسمت اول
همه چیز درباره ی کاهش بعد داده ها با روش PCA ! – قسمت دوم
همه چیز درباره ی کاهش بعد داده ها با روش PCA - قسمت سوم