طبقهبندی دودویی
این نوشتار نیازمند پیوند میانزبانی است. در صورت وجود، با توجه به خودآموز ترجمه، میانویکی مناسب را به نوشتار بیفزایید. |
طبقهبندی دودویی(باینری) (به انگلیسی: Binary classification) در یادگیری ماشین، یک الگوریتم یادگیری نظارتشده است که به مشاهدات جدید را در یکی از دو گروه ممکن دستهبندی میکند. معمولاً این دو گروه را با اعداد 0 و 1 برای دو گروه نمایش میدهند.
در جدول زیر به مثالهایی از کاربرد طبقهبندی دودویی در زمینههای مختلف اشاره شده است.
گروه 1 | گروه 0 | مشاهده | کاربرد |
---|---|---|---|
بیمار | سالم | بیمار | تشخیص پزشکی |
اسپم | غیر اسپم | ایمیل | تحلیل پست الکترونیکی |
تقلبی | غیر تقلبی | تراکنش | تحلیل داده های مالی |
خریداری میکند. | خریداری نمیکند. | بازدیدکننده وبسایت | بازاریابی |
تصویر آن موجود را شامل میشود. | تصویر آن موجود را شامل نمیشود. | تصویر | تشخیص یک موجود خاص در تصاویر |
در طبقهبندی دودویی این دو گروه مختلف اغلب نامتقارن هستند. به عبارت دیگر ممکن است بخش بزرگی از نمونههای موجود که قصد طبقهبندی آنها را داریم متعلق به یک گروه باشتد و نمونههای مربوط به گروه دیگر از تعداد کمتری برخوردار باشند. بعلاوه در چنین مسائلی عموماً به جای دقت کلی، کمینه کردن خطاهای دیگری برای هر یک از گروهها مورد علاقه است.
به عنوان مثال در آزمایش پزشکی مربوط به تشخیص سرطان هدف طبقهبندی دو گروه از نمونههای سرطانی و غیرسرطانی است. در حالی که معمولاً تعداد نمونههای سرطانی موجود در یک مجموعه داده در مقایسه با تعداد نمونههای غیرسرطانی بسیار کمتر است. اگر نمونههای سرطانی به عنوان گروه 1 و نمونههای غیرسرطانی به عنوان گروه 0 در نظر گرفتهشوند، بدیهی است آنچه از اهمیت بیشتری در این مسئله برخوردار است تشخیص درست نمونههای سرطانی در گروه مربوط به خودش (گروه 1) است، یعنی همان گروهی که نمونههای آن از تعداد کمتری در مجموعه داده برخوردار بود.
طبقهبندی دودویی آماری[ویرایش]
طبقهبندی آماری یک مسئله در حوزه یادگیری ماشین است و از روشهای یادگیری نظارتشده محسوب میشود. در این روش، دستهبندیها پیشتعریف شدهاند و از آن برای دستهبندی مشاهدات جدید به گروههای تعریف شده استفاده میشود.
زمانی که تنها دو گروه مختلف وجود دارد، این مسئله به عنوان طبقهبندی دودویی آماری شناخته میشود.
برخی از روشهای معمول برای طبقهبندی دودویی عبارتند از:
هر یک از روشهای طبقهبندی در دامنهای خاص عملکرد بهتری دارد که بر اساس تعداد مشاهدات، بعد فضای ویژگیها و عوامل دیگر مرتبط با مسئلهی موجود تعیین میگردد. به عنوان مثال، جنگلهای تصادفی نسبت به ماشینهای بردار پشتیبان در طبقهبندی ابر نقاط سهبعدی عملکرد بهتری دارند.
شیوهی ارزیابی طبقهبندیکنندههای دودویی[ویرایش]
اگر در مثال پیشبینی نتیجهی تشخیص سرطان، یک مدل طبقهبندیکنندهی دودویی نمونههای سرطانی را به درستی به عنوان "بیمار" شناسایی کند، این حالت به عنوان مثبت صادق[الف] شناخته میشود. همچنین، اگر مدل، نمونه غیرسرطانی را به عنوان "سالم" تشخیص دهد، این حالت به عنوان منفی صادق[ب] شناخته میشود. با این حال، ممکن است مدل گروه مربوط به برخی از نمونهها را به طور نادرست تشخیص دهد. در صورتی که یک نمونهی سرطانی به عنوان سالم تشخیص داده شود، این خطا به عنوان منفی کاذب[پ] شناخته میشود. به طور مشابه، اگر نمونهی غیرسرطانی به عنوان سرطانی تشخیص داده شود، این خطا به عنوان مثبت کاذب[ت] شناخته میشود.
به منظور ارزیابی یک مدل طبقهبندی دودویی، معیارهای گوناگونی از جمله صحت، شیوع، دقت و بازیابی، امتیاز اف ۱ و ... میتواند مورد استفاده قرار بگیرد که در محاسبهی آنها از چهار خطای ذکر شده استفاده میگردد.
در جدول زیر شیوهی محاسبهی معیارهای مختلف نمایش داده شده است.
واقعیت | ||||||
جامعه آماری | در واقعیت مثبت | در واقعیت منفی | شیوع = Σ Condition positive/Σ Total population | صحت (ACC) = Σ True positive + Σ True negative/Σ Total population | ||
پیشبینی | پیشبینی مثبت |
مثبت صادق | مثبت کاذب خطای نوع اول |
Positive predictive value (PPV), دقت و بازیابی = Σ True positive/Σ Predicted condition positive | میزان کشف اشتباه (FDR) = Σ False positive/Σ Predicted condition positive | |
پیشبینی منفی |
منفی کاذب خطای نوع دوم |
منفی صادق | False omission rate (FOR) = Σ False negative/Σ Predicted condition negative | Negative predictive value (NPV) = Σ True negative/Σ Predicted condition negative | ||
حساسیت و ویژگی (TPR), دقت و بازیابی، حساسیت و ویژگی، probability of detection, توان آماری = Σ True positive/Σ Condition positive | False positive rate (FPR), بازیابی اطلاعات، probability of false alarm = Σ False positive/Σ Condition negative | Positive likelihood ratio (LR+) = TPR/FPR | Diagnostic odds ratio (DOR) = LR+/LR− | امتیاز اف ۱ = 2 · Precision · Recall/Precision + Recall | ||
False negative rate (FNR), Miss rate = Σ False negative/Σ Condition positive | حساسیت و ویژگی (SPC), Selectivity, حساسیت و ویژگی (TNR) = Σ True negative/Σ Condition negative | Negative likelihood ratio (LR−) = FNR/TNR |
با توجه به مسئلهی موجود معیارهای مناسب برای ارزیابی مدل طبقهبندیکنندهی دودویی انتخاب میشود.
یادداشتها[ویرایش]
منابع[ویرایش]
- Zhang & Zakhor, Richard & Avideh (2014). "Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras". VIP Lab Publications CiteSeerX 10.1.1.649.303
- Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.
- https://en.wikipedia.org/w/index.php?title=Binary_classification
- https://www.learndatasci.com/glossary/binary-classification
- حساسیت و ویژگی