دسته‌بندی‌کننده بیز ساده

دسته‌بندی‌کننده بیز ساده (به انگلیسی: Naive Bayes classifier) در یادگیری ماشین به گروهی از دسته‌بندی‌کنندههای ساده بر پایه احتمالات گفته می‌شود که با فرض استقلال متغیرهای تصادفی و براساس قضیه بیز ساخته می‌شوند. به‌طور ساده روش بیز روشی برای دسته‌بندی پدیده‌ها، بر پایه احتمال وقوع یا عدم وقوع یک پدیده‌است. این روش از ساده‌ترین الگوریتم‌های پیش‌بینی است که دقت قابل قبولی هم دارد.^[۱]^[۲] دقت آن را می‌توان با استفاده از برآورد چگالی کرنل به صورت قابل توجهی بالا برد. شیوه یادگیری در روش بیز ساده از نوع یادگیری با نظارت است.^[۱]^[۲] این روش در دهه ۱۹۶۰ در میان دانشمندان بازیابی اطلاعات توسعه یافت و هنوز هم از روش‌های محبوب در دسته‌بندی اسناد به‌شمار می‌آید.

بیز ساده فرض را بر استقلال متغیرهای پیش‌بینی می‌گذارد از این رو بیز ساده یا بیز ساده‌لوح خوانده می‌شود.^[۲] برای نمونه در مسئله پیش‌بینی یک میوه (این میوه مثلاً ممکن است پرتقال باشد) اگر میوه نارنجی و کروی با شعاع حدود ده سانتی‌متر باشد و به شرطی که این احتمالات به درستی از همدیگر مستقل باشند بیز ساده در تشخیص اینکه این میوه پرتقال است یا نه به‌درستی عمل خواهد کرد.

برنامه‌های کاربردی بسیاری هستند که پارامترهای نایو بیز را تخمین می‌زنند، بنابراین افراد بدون سروکار داشتن با تئوری بیز می‌توانند از این امکان به منظور حل مسایل مورد نظر بهره ببرند. با وجود مسائل طراحی و پیش فرض‌هایی که در خصوص روش بیز وجود دارد، این روش برای طبقه‌بندی کردن بیشتر مسایل در جهان واقعی، مناسب است.

مدل‌سازی احتمالی[ویرایش]

اگر $n$ متغیر ورودی داشته باشیم یعنی $\mathbf {x} =(x_{1},\dots ,x_{n})$ و خروجی $\mathbf {y}$ از یک مجموعه $K$ عضوی باشد، هدف از مدل‌سازی پیدا کردن احتمال مشروط هر کدام از این $K$ دسته است یعنی $p(C_{k}\mid x_{1},\dots ,x_{n})\,$ . طبق قانون بیز این احتمال برابر است با^[۳]

$p(C_{k}\mid \mathbf {x} )={\frac {p\left(C_{k}\,,\,\mathbf {x} \right)}{p(\mathbf {x} )}}\,\propto p\left(C_{k}\,,\,\mathbf {x} \right)$

به عبارت دیگر احتمال مشروط $p(C_{k}\mid x_{1},\dots ,x_{n})\,$ به توزیع توأم $\mathbf {x}$ و $C_{k}$ بستگی دارد. طبق قانون زنجیره‌ای این توزیع توأم برابر است با:

${\begin{aligned}p(C_{k},x_{1},\dots ,x_{n})&=p(x_{1},\dots ,x_{n},C_{k})\\p(C_{k},x_{1},\dots ,x_{n})&=p(x_{1}\mid x_{2},\dots ,x_{n},C_{k})\,p(x_{2},\dots ,x_{n},C_{k})\\p(C_{k},x_{1},\dots ,x_{n})&=p(x_{1}\mid x_{2},\dots ,x_{n},C_{k})\,p(x_{2}\mid x_{3},\dots ,x_{n},C_{k})\,p(x_{3},\dots ,x_{n},C_{k})\\p(C_{k},x_{1},\dots ,x_{n})&=\dots \\p(C_{k},x_{1},\dots ,x_{n})&=p(x_{1}\mid x_{2},\dots ,x_{n},C_{k})\,p(x_{2}\mid x_{3},\dots ,x_{n},C_{k})\dots p(x_{n-1}\mid x_{n},C_{k})\,p(x_{n}\mid C_{k})p(C_{k})\\\end{aligned}}$

حال اگر فرض کنیم هر متغیری نسبت به متغیرهای دیگر به شرط دسته $C_{k}$ مستقل است یعنی $p(x_{i}\mid x_{i+1},\dots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,$ به نتیجه پایین می‌رسیم:

${\begin{aligned}p(C_{k}\mid x_{1},\dots ,x_{n})&\varpropto p(C_{k},x_{1},\dots ,x_{n})\\p(C_{k},x_{1},\dots ,x_{n})&=p(C_{k})\ p(x_{1}\mid C_{k})\ p(x_{2}\mid C_{k})\ p(x_{3}\mid C_{k})\ \cdots \\p(C_{k},x_{1},\dots ,x_{n})&=p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})\,\end{aligned}}$

با نرمال‌سازی عبارت قبلی می‌توان توزیع احتمال مشروط را پیدا کرد، در معادله پایین $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ همان ضریب نرمال‌سازی است:

$p(C_{k}\mid x_{1},\dots ,x_{n})={\frac {1}{Z}}p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})$

اگر هدف پیدا کردن محتملترین دسته باشد، به ضریب نرمال‌سازی یعنی $Z$ نیازی نیست:

${\hat {y}}={\underset {k\in \{1,\dots ,K\}}{\operatorname {argmax} }}\ p(C_{k})\displaystyle \prod _{i=1}^{n}p(x_{i}\mid C_{k}).$

تخمین پارامترها[ویرایش]

برای مدلسازی دسته‌بندی‌کننده بیز ساده برای تمام $k$ ها به تخمین $p(C_{k})$ و $p(x_{i}\mid C_{k})$ نیاز داریم. $p(C_{k})$ به سادگی با حساب درصد داده‌هایی که متعلق به کلاس $C_{k}$ هستند بدست می‌آید. برای بدست آوردن $p(x_{i}\mid C_{k})$ راه‌های مختلفی وجود دارد، تخمین توزیع چند جمله‌ای یا توزیع طبیعی روش‌هایی متداول برای این کار هستند.^[۴]

در روش تخمین توزیع طبیعی، $p(x_{i}\mid C_{k})$ را با یک توزیع طبیعی با میانگین $\mu _{i,k}$ و واریانس $\sigma _{i,k}^{2}$ تخمین می‌زنیم و $\mu _{i,k}$ و $\sigma _{i,k}^{2}$ را از طریق درست نمایی بیشینه بدست می‌آوریم:

$p(x_{i}=v\mid C_{k})={\frac {1}{\sqrt {2\pi \sigma _{i,k}^{2}}}}\,\exp \left(-{\frac {(v-\mu _{i,k})^{2}}{2\sigma _{i,k}^{2}}}\right)$

اگر $x_{i}$ گسسته باشد، توزیع $p(x_{i}=v\mid C_{k})$ را می‌توان با یک توزیع چند جمله‌ای تخمین زد.^[۴]

مثال‌ها[ویرایش]

بازی گلف[ویرایش]

در این مثال داده‌هایی از شخصی داریم که به ما می‌گوید که در شرایط مختلف آب و هوایی این شخص گلف بازی می‌کند یا خیر.^[۵]

آب و هوا	دما	رطوبت	طوفانی	بازی می‌کند؟
بارانی	گرم	زیاد	خیر	خیر
بارانی	گرم	زیاد	بله	خیر
ابری	گرم	زیاد	خیر	بله
آفتابی	معتدل	زیاد	خیر	بله
آفتابی	سرد	متوسط	خیر	بله
آفتابی	سرد	متوسط	بله	خیر
ابری	سرد	متوسط	بله	بله
بارانی	معتدل	زیاد	خیر	خیر
بارانی	سرد	متوسط	خیر	بله
آفتابی	معتدل	متوسط	خیر	بله
بارانی	معتدل	متوسط	بله	بله
ابری	معتدل	زیاد	بله	بله
ابری	گرم	متوسط	خیر	بله
آفتابی	معتدل	زیاد	بله	خیر

دسته‌بندی‌کننده با استفاده از این داده‌ها به جداول زیر می‌رسد. در هر جدول احتمال شرایط مختلف آب و هوایی به شرط این که شخص گلف بازی کند یا نکند آمده‌است.

		بازی می‌کند؟
		بله	خیر
آب و هوا	آفتابی	${\frac {3}{9}}$	${\frac {2}{5}}$
	ابری	${\frac {4}{9}}$	${\frac {0}{5}}$
	بارانی	${\frac {2}{9}}$	${\frac {3}{5}}$

		بازی می‌کند؟
		بله	خیر
دما	گرم	${\frac {2}{9}}$	${\frac {2}{5}}$
	معتدل	${\frac {4}{9}}$	${\frac {2}{5}}$
	سرد	${\frac {3}{9}}$	${\frac {1}{5}}$

		بازی می‌کند؟
		بله	خیر
رطوبت	زیاد	${\frac {3}{9}}$	${\frac {4}{5}}$
رطوبت	متوسط	${\frac {6}{9}}$	${\frac {1}{5}}$

		بازی می‌کند؟
		بله	خیر
طوفانی	خیر	${\frac {6}{9}}$	${\frac {2}{5}}$
طوفانی	بله	${\frac {3}{9}}$	${\frac {3}{5}}$

فرض کنید هوا بارانی، طوفانی، سرد و مرطوب باشد. حال می‌خواهیم مشخص کنیم که این شخص گلف بازی می‌کند یا خیر. فرض کنید $x_{1}$ معادل بارانی بودن، $x_{2}$ معادل طوفانی بودن، $x_{3}$ معادل سرد بودن و $x_{4}$ معادل مرطوب بودن باشد. همچنین $C_{1}$ معادل بازی کردن و $C_{2}$ معادل بازی نکردن باشد. در این صورت داریم

${\begin{aligned}&p(C_{1}\mid \mathbf {x} )\propto p(C_{1})p(x_{1}\mid C_{1})p(x_{2}\mid C_{1})p(x_{3}\mid C_{1})p(x4\mid C_{1})={\frac {9}{14}}\times {\frac {2}{9}}\times {\frac {3}{9}}\times {\frac {3}{9}}\times {\frac {3}{9}}\approx 0.0053\\&p(C_{2}\mid \mathbf {x} )\propto p(C_{2})p(x_{1}\mid C_{2})p(x_{2}\mid C_{2})p(x_{3}\mid C_{2})p(x4\mid C_{2})={\frac {5}{14}}\times {\frac {3}{5}}\times {\frac {3}{5}}\times {\frac {1}{5}}\times {\frac {4}{5}}\approx 0.02\\&\Longrightarrow p(C_{2}\mid \mathbf {x} )>p(C_{1}\mid \mathbf {x} )\\\end{aligned}}$

پس دسته‌بندی‌کننده برچسب $C_{2}$ را انتخاب خواهد کرد. در نتیجه شخص با این شرایط گلف بازی نخواهد کرد.

مزایا و معایب[ویرایش]

تحقیقاتی در سال ۲۰۰۴ دلایل نظریه‌ای برای رفتارهای غیر منطقی بیز مطرح کرد و همچنین در سال ۲۰۰۶ مشاهدات فراگیری به منظور مقایسه این روش با سایر روش‌های طبقه‌بندی مانند boosted trees و جنگل تصادفی (random forests) انجام شد که بر کارا بودن این روش صحه گذاشتند.

از مزایای این روش می‌توان به موارد زیر اشاره کرد:^[۶]

دسته‌بندی کردن داده‌های آزمایشی آسان و سریع است. همچنین زمانی که تعداد دسته‌ها از دو بیشتر باشد نیز عملکرد خوبی از خودش نشان می‌دهد.
تا زمانی که شرط مستقل بودن برقرار باشد، یک دسته‌بندی‌کننده بیز ساده عملکرد بهتری نسبت به مدل‌های دیگر مانند رگرسیون لجستیک دارد و به حجم آموزش کمی نیاز دارد.
در حالتی که ورودی‌هایمان دسته‌بندی شده باشند این روش عملکرد بهتری نسبت به حالی دارد که ورودی‌هایمان عدد باشند. برای حالتی که ورودی عدد باشد معمولاً فرض می‌شود که از توزیع نرمال پیروی می‌کنند. (که فرض قوی‌ای است)

علاوه بر مزایایی که این دسته‌بندی‌کننده دارد معایبی نیز دارد، از جمله:

در صورتی که ورودی‌مان دسته‌بندی شده باشد و در مرحلهٔ یادگیری دسته‌ای وجود داشته باشد که دسته‌بندی‌کننده هیچ داده‌ای از آن دسته مشاهده نکرده باشد، دسته‌بندی‌کننده احتمالی برابر صفر برای آن دسته در نظر می‌گیرد و قادر به دسته‌بندی کردن نخواهد بود. برای حل این مشکل می‌توان از تکنیک‌های هموارسازی مانند تخمین‌گر لاپلاس استفاده کرد.
یکی دیگر از معایب این دسته‌بندی‌کننده این است که دستیابی به شرط مستقل بودن در دنیای واقعی تقریباً غیرممکن است.

کاربردها[ویرایش]

برخی از کاربردهای این دسته‌بندی‌کننده به شرح زیر است:^[۷]

دسته‌بندی‌کننده متن: دسته‌بندی‌کننده‌های بیز ساده عموماً در دسته‌بندی متن کاربرد دارند و نسبت به روش‌های دیگر درصد موفقیت بیشتری در این زمینه دارند.
فیلترینگ اسپم: یکی از معروف‌ترین کاربردهای این دسته‌بندی‌کننده فیلترینگ اسپم است. در این روش فیلترینگ از دسته‌بندی‌کننده بیز ساده برای شناسایی ایمیل‌های اسپم استفاده می‌شود. امروزه بسیاری از سرویس‌دهندگان پست‌های الکترونیک از فیلترینگ اسپم بیزی استفاده می‌کنند. این روش در نرم‌افزارهای فیلتر اسپم نیز استفاده می‌شود. فیلترهای سمت سرور مانند Bogofilter, SpamBayes, SpamAssassin, DSPAM و ASSP نیز از تکنیک‌های فیلتر اسپم بیزی استفاده می‌کنند.
سامانه توصیه‌گر: دسته‌بندی‌کننده بیز ساده به همراه پالایش گروهی سامانهٔ توصیه‌گری را تشکیل می‌دهد که از تکنیک‌های یادگیری ماشین و داده‌کاوی برای فیلتر کردن اطلاعات دیده نشده و پیش‌بینی نظر یک کاربر در مورد اقلام مختلف استفاده می‌کند.
تحلیل احساسات: از این دسته‌بندی‌کننده در تحلیل احساسات متون و نظرات مختلف (برای مثال در شبکه‌های اجتماعی) استفاده می‌شود.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

↑ ^۱٫۰ ^۱٫۱ Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/jpeodx.0000175. ISSN 2573-5438. {{cite journal}}: Check date values in: |date= (help)
↑ ^۲٫۰ ^۲٫۱ ^۲٫۲ Hastie, Trevor. (2001). The elements of statistical learning: data mining, inference, and prediction: with 200 full-color illustrations. Tibshirani, Robert. , Friedman, J. H. (Jerome H.). New York: Springer. ISBN 0-387-95284-5. OCLC 46809224.
↑ Narasimha Murty, M.; Susheela Devi, V. (2011). Pattern Recognition: An Algorithmic Approach. ISBN 0-85729-494-6.
↑ ^۴٫۰ ^۴٫۱ Russell, Stuart; results, search (2009-12-11). Artificial Intelligence: A Modern Approach (به انگلیسی) (3 edition ed.). New York: Pearson. p. 808. {{cite book}}: |edition= has extra text (help)نگهداری یادکرد:تاریخ و سال (link)
↑ «Naive Bayesian». www.saedsayad.com. دریافت‌شده در ۲۰۱۸-۱۲-۲۷.
↑ «6 Easy Steps to Learn Naive Bayes Algorithm (with code in Python)». Analytics Vidhya. ۲۰۱۷-۰۹-۱۱. دریافت‌شده در ۲۰۱۸-۱۲-۲۸.
↑ «نسخه آرشیو شده» (PDF). software.ucv.ro. بایگانی‌شده از اصلی (PDF) در ۲۶ اوت ۲۰۱۸. دریافت‌شده در ۲۰۱۸-۱۲-۲۸.

مشارکت‌کنندگان ویکی‌پدیا. «Naive Bayes classifier». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۱ ژوئن ۲۰۱۲.
Book Chapter: Naive Bayes text classification, Introduction to Information Retrieval
Naive Bayes for Text Classification with Unbalanced Classes
Benchmark results of Naive Bayes implementations بایگانی‌شده در ۱۷ آوریل ۲۰۲۱ توسط Wayback Machine
Hierarchical Naive Bayes Classifiers for uncertain data (an extension of the Naive Bayes classifier).

[:1-1] ۱٫۰ ^۱٫۱ Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/jpeodx.0000175. ISSN 2573-5438. {{cite journal}}: Check date values in: |date= (help)

[:2-2] ۲٫۰ ^۲٫۱ ^۲٫۲ Hastie, Trevor. (2001). The elements of statistical learning: data mining, inference, and prediction: with 200 full-color illustrations. Tibshirani, Robert. , Friedman, J. H. (Jerome H.). New York: Springer. ISBN 0-387-95284-5. OCLC 46809224.

[3] Narasimha Murty, M.; Susheela Devi, V. (2011). Pattern Recognition: An Algorithmic Approach. ISBN 0-85729-494-6.

[:0-4] ۴٫۰ ^۴٫۱ Russell, Stuart; results, search (2009-12-11). Artificial Intelligence: A Modern Approach (به انگلیسی) (3 edition ed.). New York: Pearson. p. 808. {{cite book}}: |edition= has extra text (help)نگهداری یادکرد:تاریخ و سال (link)

[5] «Naive Bayesian». www.saedsayad.com. دریافت‌شده در ۲۰۱۸-۱۲-۲۷.

[6] «6 Easy Steps to Learn Naive Bayes Algorithm (with code in Python)». Analytics Vidhya. ۲۰۱۷-۰۹-۱۱. دریافت‌شده در ۲۰۱۸-۱۲-۲۸.

[7] «نسخه آرشیو شده» (PDF). software.ucv.ro. بایگانی‌شده از اصلی (PDF) در ۲۶ اوت ۲۰۱۸. دریافت‌شده در ۲۰۱۸-۱۲-۲۸.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]