کاهش ابعاد

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به ناوبری پرش به جستجو

در یادگیری ماشین و آمار کاهش بعد یا کاهش ابعاد روند کاهش تعداد متغیرهای تصادفی تحت نظر (Supervised)[۱] از طریق به دست آوردن یک مجموعه از متغیرهای اصلی می‌باشد. کاهش ابعاد را می‌توان به انتخاب ویژگی و استخراج ویژگی تقسیم کرد.[۲]

انتخاب ویژگی[ویرایش]

انتخاب ویژگی روشی است که برای پیدا کردن یک زیر مجموعه از متغیرهای اصلی (آن هارا ویژگی‌ها یا صفات نیز می‌گویند) تلاش می‌کند.

برای این عمل سه استراتژی وجود دارد: استراتژی فیلتر (به عنوان مثال افزایش اطلاعات)، استراتژی بسته‌بندی (به عنوان مثال جستجوهایی با دقت هدایت شونده) و استراتژی جاسازی شده (ویژگی‌ها برای ساختن مدل بر اساس اشتباهات پیش بینی، انتخاب می‌شوند تا اضافه شوند یا حذف شوند).

در این خصوص مشکلات بهینه‌سازی ترکیباتی را نگاه کنید.

در برخی از موارد، تجزیه و تحلیل داده‌ها مانند رگرسیون یا طبقه‌بندی می‌تواند در فضای کاهش یافته دقیق تر از فضای اصلی انجام بشود.[نیازمند منبع]

استخراج ویژگی[ویرایش]

استخراج ویژگی داده‌ها را در فضای با ابعاد بزرگ به یک فضای ابعاد کمتر تبدیل می‌کند. تحول داده‌ها می‌تواند خطی باشد، همان‌طور که در تجزیه و تحلیل مولفه اصلی (PCA)، اما بسیاری از تکنیک‌های کاهش اندازه غیر خطی نیز وجود دارد.[۳][۴] برای داده‌های چند بعدی، نمایندگی تانسور را می‌توان در کاهش ابعاد از طریق یادگیری زیر فضای چند لاین استفاده کرد.[۵]

تجزیه تحلیل مولفه اصلی (PCA)[ویرایش]

روش اصلی خطی برای کاهش ابعاد، تجزیه و تحلیل مولفه اصلی، نقشه‌برداری خطی داده‌ها را به یک فضای بعدی پایین‌تر انجام می‌دهد به طوری که واریانس داده‌ها در نمایش نمایشی کمینه به حداکثر می‌رسد. در عمل، ماتریس کوواریانس (و بعضی اوقات همبستگی) داده‌ها ساخته می‌شود و ویژه بردار در این ماتریس محاسبه می‌شود. بردارهای اصلی که با بزرگترین مقادیر ویژه (اجزای اصلی) مطابقت دارند، اکنون می‌توانند برای بازسازی بخش بزرگی از واریانس داده‌های اصلی استفاده شوند. علاوه بر این، چندین بردار اولاً می‌توانند به صورت منظم رفتار فیزیکی در مقیاس بزرگ سیستم تفسیر شوند[نیازمند منبع] [چرا؟]. فضای اصلی (با ابعاد تعداد نقاط) کاهش یافته‌است (با از دست دادن داده‌ها، اما امیدواریم مهمترین واریانس را حفظ کند) توسط چند بردارهای ویژه به فضا می‌رسد.

هسته PCA[ویرایش]

تجزیه و تحلیل مولفه اصلی می‌تواند با استفاده از ترفند هسته در یک روش غیر خطی استفاده شود. تکنیک حاصل قادر به ساخت نقشه‌های غیر خطی است که واریانس را در داده‌ها به حداکثر می‌رساند. تکنیک حاصل PCA کرنل است.

هسته مبتنی بر گرافیک PCA[ویرایش]

دیگر تکنیک‌های غیر خطی برجسته شامل تکنیک‌های یادگیری منیوفولد، تکنیک‌هایی مانند Isomap، جابجایی خطی محلی (LLE)، هسین LLE، خصوصیات Laplacian و هماهنگی فضایی مماس محلی (LTSA) می‌باشد. این تکنیک‌ها یک نماینده داده‌های کم حجم با استفاده از یک تابع هزینه ای که خواص محلی را حفظ می‌کند، ایجاد می‌کند و می‌تواند به عنوان تعریف یک هسته مبتنی بر گراف برای PCA Kernel مورد استفاده قرار گیرد.

تفکیک کننده خطی (LDA)[ویرایش]

تفکیک کننده خطی (LDA) یک تعمیم جدایی خطی فیشر است، یک روش استفاده شده در آمار، تشخیص الگو و یادگیری ماشین برای یافتن ترکیب خطی از ویژگی‌هایی که دو یا چند کلاس اشیاء یا رویدادهای را مشخص یا جدا می‌کند.

تعمیم تحلیل تمایزی (GDA)[ویرایش]

کاهش ابعاد[ویرایش]

برای مجموعه داده‌های با ابعاد بزرگ (یا به عنوان مثال با تعداد ابعاد بیش از ۱۰) کاهش ابعاد معمولاً قبل از اعمال الگوریتم نزدیکترین همسایگان (k-NN) به منظور جلوگیری از نفرین بعدی انجام می‌شود.[۶]

مزایای استفاده از کاهش ابعاد[ویرایش]

  1. فضا، زمان و ذخیره‌سازی مورد نیاز را کاهش می‌دهد.
  2. از بین بردن چند ستون، عملکرد مدل یادگیری ماشین را بهبود می‌بخشد.
  3. هنگامی که به ابعاد بسیار کم مانند 2D یا 3D تبدیل می‌شود، داده‌ها به راحتی قابل مشاهده است.

برنامه‌های کاربردی[ویرایش]

تکنیک کاهش ابعادی که گاهی در علوم اعصاب استفاده می‌شود، ابعاد حداکثر آموزنده است که یک نمایندهٔ پایین‌تر از یک مجموعه داده را نشان می‌دهد تا اطلاعاتی که ممکن است در مورد داده‌های اصلی حفظ شود.[نیازمند منبع]

جستارهای وابسته[ویرایش]

یادداشت[ویرایش]

  1. Roweis, S. T.; Saul, L. K. (2000). "Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science. 290 (5500): 2323–2326. doi:10.1126/science.290.5500.2323. PMID 11125150. 
  2. Pudil, P.; Novovičová, J. (1998). "Novel Methods for Feature Subset Selection with Respect to Problem Knowledge". In Liu, Huan; Motoda, Hiroshi. Feature Extraction, Construction and Selection. p. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4. 
  3. Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. شابک: ‎۰-۱۲-۳۶۹۴۴۶-۹
  4. C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
  5. Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004. 
  6. Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "When is “nearest neighbor” meaningful?". Database Theory—ICDT99, 217-235

منابع[ویرایش]

پیوند به بیرون[ویرایش]