پیش‌نویس:انتخاب نمونه

از ویکی‌پدیا، دانشنامهٔ آزاد

انتخاب نمونه (یا کاهش مجموعه داده، یا تراکم مجموعه داده) یک مرحله مهم پیش پردازش شده است که میتواند در بسیاری از وظایف یادگیری ماشین(یا داده کاوی) اعمال شود.[۱]

روش ها برای انتخاب نمونه میتواند برای کاهش مجموعه داده اصلی ، به یک حجم قابل مدیریت اعمال شود، که منجر به کاهش منابع محاسباتی لازم برای انجام فرایند یادگیری میشود. الگوریتم انتخاب نمونه را میتوان برای حذف نمونه های شلوغ، قبل از اعمال الگوریتم های یادگیری(یادگیری ماشین) به کار برد. این مرحله می‌تواند دقت در مسائل طبقه‌بندی را بهبود بخشد.

الگوریتم انتخاب نمونه باید زیرمجموعه‌ای از کل داده‌های موجود را ، برای دستیابی به هدف اصلی برنامه داده‌کاوی (یا لیمینگ ماشین) شناسایی کند، طوری ک انگار از کل داده‌ها استفاده شده است. با توجه به این، نتیجه بهینه ی IS ، حداقل زیر مجموعه داده که می تواند یک کار را بدون افت عملکرد انجام دهد، در مقایسه با زمانی که کار با استفاده از کل داده های موجود انجام می شود خواهد بود.

بنابراین، هر استراتژی انتخاب نمونه باید با مبادله بین نرخ کاهش مجموعه داده و کیفیت طبقه‌بندی سروکار داشته باشد.

الگوریتم های انتخاب نمونه

ادبیات چندین الگوریتم مختلف را برای انتخاب نمونه ارائه می دهد. آنها را می توان با توجه به چندین معیار مختلف از یکدیگر متمایز کرد. با در نظر گرفتن این موضوع، الگوریتم‌های انتخاب نمونه را می‌توان در دو کلاس اصلی، بر اساس نمونه‌هایی که انتخاب می‌کنند، دسته‌بندی کرد:

الگوریتم هایی که نمونه ها را در مرزهای کلاس ها حفظ می کنند و الگوریتم هایی که نمونه های داخلی کلاس ها را حفظ می کنند.

در دسته الگوریتم هایی که نمونه هایی را در مرزها انتخاب می کنند، می توان به DROP3[۲]، [۳]ICF و [۴]LSBo اشاره کرد. از سوی دیگر، در دسته الگوریتم هایی که نمونه های داخلی را انتخاب می کنند، می توان به ENN و LSSm اشاره کرد.

به طور کلی، الگوریتم هایی مانند ENN [۵]و LSSm ، برای حذف نمونه های مضر (شلوغ) از مجموعه داده استفاده می شود. آنها داده‌ها را مثل الگوریتم‌هایی که نمونه‌های مرزی را انتخاب می‌کنند کاهش نمی‌دهند، بلکه نمونه‌هایی را در مرزها حذف می‌کنند که تأثیر منفی بر داده‌کاوی دارند. آنها می توانند توسط سایر الگوریتم های انتخاب نمونه به عنوان یک مرحله برای فیلتر استفاده شوند. به عنوان مثال، الگوریتم ENN توسط DROP3 به عنوان اولین مرحله برای فیلتر کردن و الگوریتم LSSm توسط LSBo استفاده می شود.

همچنین گروه دیگری از الگوریتم ها وجود دارند که معیارهای انتخاب متفاوتی را اتخاذ می کنند. به عنوان مثال، الگوریتم‌های LDIS[۶]، CDIS[۷] و XLDIS متراکم‌ترین نمونه‌ها را در یک همسایگی (محل) دلخواه انتخاب می‌کنند.نمونه های انتخاب شده می توانند شامل هر دو نمونه مرزی و داخلی باشند. الگوریتم‌های LDIS و CDIS بسیار ساده هستند و زیر مجموعه‌هایی را انتخاب می‌کنند که معرف مجموعه داده اصلی هستند. علاوه بر این، از آنجایی که آنها نمونه های نماینده را در هر کلاس به طور جداگانه جستجو می کنند، آنها (از نظر پیچیدگی زمانی و زمان اجرای موثر) نسبت به سایر الگوریتم ها مانند DROP3 و ICF سریعتر هستند.

علاوه بر این، دسته سومی از الگوریتم‌ها وجود دارد که به جای انتخاب نمونه‌های واقعی از مجموعه داده، نمونه‌های اولیه (که می‌توانند نمونه‌های مصنوعی باشند) را انتخاب می‌کنند.در این دسته می توان PSSA، PSDSP و PSSP را در نظر گرفت.

این سه الگوریتم مفهوم تقسیم بندی فضایی (یک ابرمستطیل) را برای شناسایی نمونه‌های مشابه و استخراج نمونه‌های اولیه برای هر مجموعه از نمونه‌های مشابه اتخاذ می‌کنند.

به طور کلی، این رویکردها می توانند برای انتخاب نمونه های واقعی از مجموعه داده ها اصلاح شوند. الگوریتم ISDSP رویکرد مشابهی را برای انتخاب نمونه های واقعی (به جای نمونه های اولیه) اتخاذ می کند.

انتخاب نمونه[ویرایش]

  1. S. García, J. Luengo, and F. Herrera, Data preprocessing in data mining. Springer, 2015.
  2. D. R. Wilson and T. R. Martinez, Reduction techniques for instance-based learning algorithms, Machine learning, vol. 38, no. 3, pp. 257–286, 2000.
  3. H. Brighton and C. Mellish, Advances in instance selection for instance-based learning algorithms, Data mining and knowledge discovery, vol. 6, no. 2, pp. 153–172, 2002.
  4. Leyva, A. González, and R. Pérez, Three new instance selection methods based on local sets: A comparative study with several approaches from a bi-objective perspective, Pattern Recognition, vol. 48, no. 4, pp. 1523–1537, 2015
  5. D. L. Wilson, “Asymptotic properties of nearest neighbor rules using edited data,” Systems, Man and Cybernetics, IEEE Transactions on, no. 3, pp. 408–421, 1972.
  6. Carbonera, Joel Luis, and Mara Abel. A density-based approach for instance selection. IEEE 27th International Conference on Tools with Artificial Intelligence (ICTAI), 2015.
  7. Carbonera, Joel Luis, and Mara Abel. A novel density-based approach for instance selection. IEEE 28th International Conference on Tools with Artificial Intelligence (ICTAI), 2016.