اعتبارسنجی سایهنما (خوشهبندی): تفاوت میان نسخهها
بدون خلاصۀ ویرایش |
جزبدون خلاصۀ ویرایش |
||
خط ۶: | خط ۶: | ||
== تعریف == |
== تعریف == |
||
[[پرونده:Silhouette-plot-orange.png|بندانگشتی| نمودار نشان دهندهٔ مقدار '''Silhouette''' برای سه نوع از حیوانات از dataset باغ وحش ارائه شده توسط مجموعه داده کاوی Orange است. در پایین نمودار، سیلوئت دلفین و |
[[پرونده:Silhouette-plot-orange.png|بندانگشتی| نمودار نشان دهندهٔ مقدار '''Silhouette''' برای سه نوع از حیوانات از dataset باغ وحش ارائه شده توسط مجموعه داده کاوی Orange است. در پایین نمودار، سیلوئت دلفین و [[گرازماهی]] را به عنوان دادهٔ پرت از گروه پستانداران شناسایی میکند.]] |
||
فرض کنید دادهها به <math>k</math> خوشه از طریق هر تکنیکی مانند [[خوشهبندی کی-میانگین]] در آن خوشه بندی شدهاند |
فرض کنید دادهها به <math>k</math> خوشه از طریق هر تکنیکی مانند [[خوشهبندی کی-میانگین]] در آن خوشه بندی شدهاند |
||
نسخهٔ ۲۸ دسامبر ۲۰۲۰، ساعت ۰۷:۳۶
اعتبارسنجی سایهنما یا سیلوئت (به انگلیسی: silhouette) به روشی برای تفسیر و صحت ثبات در خوشهبندی اشاره دارد. این تکنیک یک نمایش گرافیکی مختصر از میزان طبقهبندی هر یک از اشیا ارائه میدهد.[۱]
مقدار سیلوئت معیار میزان شباهت یک شی به خوشه خودش (انسجام) در مقایسه با خوشههای دیگر (جداسازی شده) است. محدوده سیلوئت از 1− تا ۱+ است، که در آن مقدار زیاد نشان میدهد که شی به خوبی با خوشه خود مطابقت دارد و با خوشههای همسایه همسان نیست. اگر بیشتر اشیا از مقدار بالایی برخوردار باشند، ساختار خوشه بندی مناسب است. اگر بسیاری از نقاط دارای مقدار کم یا منفی باشند، در این صورت ممکن است ساختار خوشه بندی دارای خوشههای بسیار زیاد یا بسیار کم باشد.
سیلوئت را میتوان با هر معیار سنجش فاصله، مانند فاصله اقلیدسی یا فاصله منهتن، محاسبه کرد.
تعریف
فرض کنید دادهها به خوشه از طریق هر تکنیکی مانند خوشهبندی کی-میانگین در آن خوشه بندی شدهاند
برای دادهای مانند نقطهٔ (نقطه متعلق به خوشه )، قرار دهید:
میانگین فاصله بین دادهٔ نقطه و سایر نقاط داده در همان خوشه، که در آن فاصله بین نقاط دادهٔ و در خوشه (تقسیم بر را انجام میدهیم زیرا فاصله را در جمع وارد نمیکنیم) ما میتوانیم را به عنوان اینکه چه اندازه به خوبی به خوشه خود اختصاص داده شدهاست تفسیر کنیم (هرچه مقدار کوچکتر باشد ، انتساب بهتر است).
سپس میانگین عدم شباهت نقطه را به بعضی خوشههای به عنوان میانگین فاصله از به تمام نقاط در تعریف میکنیم (که در آن )
برای هر نقطهٔ داده ، اکنون تعریف میکنیم
کوچکترین بودن (از این رو عملگر در فرمول) میانگین فاصله با همه نقاط درخوشههای دیگر، که عضو آنها نیست. خوشه ای با کوچکترین میانگین عدم شباهت «خوشه همسایه» ی نامیده میشود، زیرا این بهترین خوشه مناسب بعدی برای نقطه است.
اکنون (مقدار) سیلوئت یک نقطه داده تعریف میکنیم
- ، اگر
و
- ، اگر
که میتوان به صورت زیر نوشت:
از تعریف بالا مشخص میشود که
همچنین، توجه داشته باشید که مقدار برای خوشههایی با اندازه مساوی ۱ مقدار عددی ۰ است. این محدودیت برای جلوگیری از افزایش قابل توجه تعداد خوشهها اضافه شدهاست.
برای نزدیک به ۱ ما نیاز به داریم. از آنجایی که یک معیار چگونگی عدم شباهت با خوشهٔ خودش است، پس مقدار کوچک آن به معنی مطابقت خوب آن است. بعلاوه بزرگی حاکی از آن است که با خوشههای همسایه مطابقت خوبی نداشتهاست. در نتیجه نزدیک به یک به معنی خوشه بندی مناسب است. اگر نزدیک به منفی یک باشد با همان منطق ما میبینیم که مناسب تر خواهد بود اگر در خوشه همسایه، خوشه بندی شده باشد. یک نزدیک به صفر به این معنی است که داده در مرز طبیعی دو خوشه است.
میانگین ای که روی همه نقاط یک خوشه بسته میشود، معیاری از این است که چه مقدار نقاط دستهبندی شده در یک خوشه به هم نزدیک هستند؛ بنابراین میانگین بر روی همهٔ دادههای کل دیتاست به عنوان معیاری از میزان مناسب بودن دادههای خوشه بندی شدهاست. اگر تعداد خوشهها بسیار زیاد یا بسیار کم باشد، که این زمانی اتفاق میافتد که یک انتخاب بد برای k در الگوریتم خوشه بندی استفاده میشود، (به عنوان مثال: خوشهبندی کی-میانگین)، بعضی از خوشهها معمولاً سیلوئتهای باریک تری نسبت به بقیه نشان میدهند؛ بنابراین میتوان از نمودارها، میانگین و ابزارهای سیلوئت برای تعیین تعداد طبیعی خوشهها در یک مجموعه داده استفاده کرد. همچنین میتوان با مقیاس گذاری مجدد دادهها با استفاده از وزن ویژگیهای خاص خوشه، به حداکثر رساندن سیلوئت در تعداد صحیح خوشهها را افزایش داد.[۲]
کافمن و همکاران واژه ضریب سیلوئت را برای حداکثر رساندن مقدار میانگین بر روی همهٔ دادههای کل دیتاست معرفی کردهاند.
بطوریکه نشاندهندهٔ میانگین را بر روی همهٔ دادههای کل دیتاست برای یک تعداد خاصی از خوشه هااست.
جستارهای وابسته
منابع
- ↑ Peter J. Rousseeuw (1987). "Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis". Computational and Applied Mathematics. 20: 53–65. doi:10.1016/0377-0427(87)90125-7.
- ↑ R.C. de Amorim, C. Hennig (2015). "Recovering the number of clusters in data sets with noise features using feature rescaling factors". Information Sciences. 324: 126–145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039.