میزان خطای بیز

از ویکی‌پدیا، دانشنامهٔ آزاد

در طبقه‌بندی آماری ، نرخ خطای بیز به عنوان کمترین میزان خطای ممکن برای یک طبقه‌بندی کننده در یک فرایند تصادفی است و مقدار خطا از این مقدار کم تر نمی شود پس مشابه خطای کاهش‌ناپذیر است. [۱] [۲]


روش های مختلفی برای تخمین میزان خطای بیز وجود دارد. یکی از این روش ها ، به دنبال به دست آوردن مرزهای تحلیلی است، اما در این روش مقدار حاصل وابستهبه پارامترهای توزیعمی باشد ، بنابراین محاسبه آن دشوار است. روش های دیگر بر تراکم کلاس ها متمرکز است، در حالی که روش دیگری طبقه بندی کننده های مختلف را ترکیب و مقایسه می کند. [۲]


نرخ خطای بیز کاربرد مهم و اساسی در مطالعه الگوها و تکنیک های یادگیری ماشیندارد. [۳]

تعیین خطا[ویرایش]

از نظر یادگیری ماشین و طبقه‌بندی الگوها، برچسب‌های مجموعه‌ای از مشاهدات تصادفی را می‌توان به ۲ یا چند کلاس تقسیم کرد. هر مشاهده را یک نمونه نامیده می شود و بر اساس برچسب آن به یک کلاس متعلق است. نرخ خطای بیز در یک توزیع داده برابر با احتمال است که در آن به اشتباه یک نمونه توسط طبقه بندی کننده ای برچسب داده می شود که مطابق برچسب اصلی آن نیست.


برای یک طبقه بندی کننده چند کلاسه ، خطای پیش بینی مورد انتظار به وسیله فرمول زیر محاسبه قابل محاسبه است: [۳]


که در این جا x یک نمونه است، امید ریاضی ، C k کلاسی است که یک نمونه در آن طبقه بندی می شود، P(C k |x) احتمال شرطی برچسب k برای نمونه x است، و L تابع هزینه است که به صورت زیر تعریف می شود:


که دلتای کرونکر است.

وقتی یادگیرنده احتمال شرطی را بداند، یک راه حل برابر با معادله زیر است:


این روش به عنوان طبقه بندی بیز شناخته می شود.

خطای مورد انتظار از پیشبینی طبقه بندی کننده ، نرخ خطای بیز نامیده می‌شود:

،

در مرحله آخر به دلیل در نظر گرفتن رویداد شمارنده، می توان عبارت جمع را حذف کرد. بر اساس تعریف طبقه بندی کننده بیز، مقدار را به حداکثرمقدار ممکن می رسد ، بنابراین خطای بیز را به حداقل می رسد.


اگر برچسب‌های طبقه‌بندی قطعی نباشند و به صورت احتمالی تعریف شده باشد ، در این صورت خطای بیز می تواند مقدار غیر صفر داشته باشد . به‌عنوان مثال، اگر احتمال یک نمونه متعلق به بیش از یک کلاس وجود داشته باشد. . در زمینه رگرسیون اگر تابع هزینه به وسیله مربع خطا بدست آید ، خطای بیز برابر با واریانس نویز است. [۳]

اثبات حداقل بودن[ویرایش]

اثبات اینکه نرخ خطای بیز واقعاً حداقل خطای ممکن است و طبقه‌بندی‌کننده بیز بهینه عمل می کند ، می‌توان در صفحه ویکی‌پدیا طبقه‌بندی‌کننده Bayes آن را مشاهده کرد.

همچنین ببینید[ویرایش]

منابع[ویرایش]

  1. Fukunaga, Keinosuke (1990). Introduction to Statistical Pattern Recognition. pp. 3, 97. ISBN 0122698517.
  2. ۲٫۰ ۲٫۱ K. Tumer, K. (1996) "Estimating the Bayes error rate through classifier combining" in Proceedings of the 13th International Conference on Pattern Recognition, Volume 2, 695–699
  3. ۳٫۰ ۳٫۱ ۳٫۲ Hastie, Trevor (2009). The Elements of Statistical Learning (2nd ed.). Springer. p. 21. ISBN 978-0387848570.