طبقه‌بندی دودویی

از ویکی‌پدیا، دانشنامهٔ آزاد

طبقه‌بندی دودویی(باینری) (به انگلیسی: Binary classification) در یادگیری ماشین، یک الگوریتم یادگیری نظارت‌شده است که به مشاهدات جدید را در یکی از دو گروه ممکن دسته‌بندی می‌کند. معمولاً این دو گروه را با اعداد 0 و 1 برای دو گروه نمایش می‌دهند.

در جدول زیر به مثال‌هایی از کاربرد طبقه‌بندی دودویی در زمینه‌های مختلف اشاره شده است.

گروه 1 گروه 0 مشاهده کاربرد
بیمار سالم بیمار تشخیص پزشکی
اسپم غیر اسپم ایمیل تحلیل پست الکترونیکی
تقلبی غیر تقلبی تراکنش تحلیل داده های مالی
خریداری می‌کند. خریداری نمی‌کند. بازدیدکننده وب‌سایت بازاریابی
تصویر آن موجود را شامل می‌شود. تصویر آن موجود را شامل نمی‌شود. تصویر تشخیص یک موجود خاص در تصاویر

در طبقه‌بندی دودویی این دو گروه مختلف اغلب نامتقارن هستند. به عبارت دیگر ممکن است بخش بزرگی از نمونه‌های موجود که قصد طبقه‌بندی آن‌ها را داریم متعلق به یک گروه باشتد و نمونه‌های مربوط به گروه دیگر از تعداد کمتری برخوردار باشند. بعلاوه در چنین مسائلی عموماً به جای دقت کلی، کمینه کردن خطاهای دیگری برای هر یک از گروه‌ها مورد علاقه است.

به عنوان مثال در آزمایش پزشکی مربوط به تشخیص سرطان هدف طبقه‌بندی دو گروه از نمونه‌های سرطانی و غیرسرطانی است. در حالی که معمولاً تعداد نمونه‌های سرطانی موجود در یک مجموعه داده در مقایسه با تعداد نمونه‌های غیرسرطانی بسیار کمتر است. اگر نمونه‌های سرطانی به عنوان گروه 1 و نمونه‌های غیرسرطانی به عنوان گروه 0 در نظر گرفته‌شوند، بدیهی‌ است آن‌چه از اهمیت بیشتری در این مسئله برخوردار است تشخیص درست نمونه‌های سرطانی در گروه مربوط به خودش (گروه 1) است، یعنی همان گروهی که نمونه‌های آن از تعداد کمتری در مجموعه داده برخوردار بود.

طبقه‌بندی دودویی آماری[ویرایش]

طبقه‌بندی آماری یک مسئله در حوزه یادگیری ماشین است و از روش‌های یادگیری نظارت‌شده محسوب می‌شود. در این روش، دسته‌بندی‌ها پیش‌تعریف شده‌اند و از آن برای دسته‌بندی مشاهدات جدید به گروه‌های تعریف شده استفاده می‎‌شود.

زمانی که تنها دو گروه مختلف وجود دارد، این مسئله به عنوان طبقه‌بندی دودویی آماری شناخته می‌شود.

برخی از روش‌های معمول برای طبقه‌بندی دودویی عبارتند از:

هر یک از روشهای طبقه‌بندی‌ در دامنه‌ای خاص عملکرد بهتری دارد که بر اساس تعداد مشاهدات، بعد فضای ویژگی‌ها و عوامل دیگر مرتبط با مسئله‌ی موجود تعیین می‌گردد. به عنوان مثال، جنگل‌های تصادفی نسبت به ماشین‌های بردار پشتیبان در طبقه‌بندی ابر نقاط سه‌بعدی عملکرد بهتری دارند.

شیوه‌ی ارزیابی طبقه‌بندی‌کننده‌های دودویی[ویرایش]

شمای نشان‌دهنده‌ی مثبت صادق (TP) ، منفی صادق (TN)، منفی کاذب (FN)، مثبت کاذب (FP)

اگر در مثال پیشبینی نتیجه‌ی تشخیص سرطان، یک مدل طبقه‌بندی‌کننده‌ی دودویی نمونه‌های سرطانی را به درستی به عنوان "بیمار" شناسایی کند، این حالت به عنوان مثبت صادق[الف] شناخته می‌شود. همچنین، اگر مدل، نمونه غیرسرطانی را به عنوان "سالم" تشخیص دهد، این حالت به عنوان منفی صادق[ب] شناخته می‌شود. با این حال، ممکن است مدل گروه مربوط به برخی از نمونه‌ها را به طور نادرست تشخیص دهد. در صورتی که یک نمونه‌ی سرطانی به عنوان سالم تشخیص داده شود، این خطا به عنوان منفی کاذب[پ] شناخته می‌شود. به طور مشابه، اگر نمونه‌ی غیرسرطانی به عنوان سرطانی تشخیص داده شود، این خطا به عنوان مثبت کاذب[ت] شناخته می‌شود.

به منظور ارزیابی یک مدل طبقه‌بندی دودویی، معیارهای گوناگونی از جمله صحت، شیوع، دقت و بازیابی، امتیاز اف ۱ و ... می‌تواند مورد استفاده قرار بگیرد که در محاسبه‌ی آن‌ها از چهار خطای ذکر شده استفاده می‌گردد.

در جدول زیر شیوه‌ی محاسبه‌ی معیارهای مختلف نمایش داده شده است.

واقعیت
جامعه آماری در واقعیت مثبت در واقعیت منفی شیوع = Σ Condition positive/Σ Total population صحت (ACC) = Σ True positive + Σ True negative/Σ Total population
پیش‌بینی پیش‌بینی
مثبت
مثبت صادق مثبت کاذب
خطای نوع اول
Positive predictive value (PPV), دقت و بازیابی = Σ True positive/Σ Predicted condition positive میزان کشف اشتباه (FDR) = Σ False positive/Σ Predicted condition positive
پیش‌بینی
منفی
منفی کاذب
خطای نوع دوم
منفی صادق False omission rate (FOR) = Σ False negative/Σ Predicted condition negative Negative predictive value (NPV) = Σ True negative/Σ Predicted condition negative
حساسیت و ویژگی (TPR), دقت و بازیابی، حساسیت و ویژگی، probability of detection, توان آماری = Σ True positive/Σ Condition positive False positive rate (FPR), بازیابی اطلاعات، probability of false alarm = Σ False positive/Σ Condition negative Positive likelihood ratio (LR+) = TPR/FPR Diagnostic odds ratio (DOR) = LR+/LR− امتیاز اف ۱ = 2 · Precision · Recall/Precision + Recall
False negative rate (FNR), Miss rate = Σ False negative/Σ Condition positive حساسیت و ویژگی (SPC), Selectivity, حساسیت و ویژگی (TNR) = Σ True negative/Σ Condition negative Negative likelihood ratio (LR−) = FNR/TNR

با توجه به مسئله‌ی موجود معیارهای مناسب برای ارزیابی مدل طبقه‌بندی‌کننده‌ی دودویی انتخاب می‌شود.

یادداشت‌ها[ویرایش]

  1. True Positive (TP)
  2. True Positive (TN)
  3. False Negative (FN)
  4. False Positive (FP)

منابع[ویرایش]

  1. Zhang & Zakhor, Richard & Avideh (2014). "Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras". VIP Lab Publications CiteSeerX 10.1.1.649.303
  2. Y. Lu and C. Rasmussen (2012). "Simplified markov random fields for efficient semantic labeling of 3D point clouds" (PDF). IROS.
  3. https://en.wikipedia.org/w/index.php?title=Binary_classification
  4. https://www.learndatasci.com/glossary/binary-classification
  5. حساسیت و ویژگی