قضیه بیز

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

قضیه بیز (به انگلیسی: Bayes' theorem) روشی برای دسته بندی پدیده‌ها، بر پایه احتمال وقوع یا عدم وقوع یک پدیده‌است و در نظریه احتمالات با اهمیت و پرکاربرد است. اگر برای فضای نمونه‌ای مفروضی بتوانیم چنان افرازی انتخاب کنیم که با دانستن اینکه کدامیک از پیشامدهای افراز شده رخ داده‌است، بخش مهمی از عدم‌اطمینان تقلیل یابد.

این قضیه از آن جهت مفید است که می‌توان از طریق آن احتمال یک پیشامد را با مشروط کردن نسبت به وقوع و یا عدم وقوع یک پیشامد دیگر محاسبه کرد. در بسیاری از حالت‌ها، محاسبهٔ احتمال یک پیشامد به صورت مستقیم کاری دشوار است. با استفاده از این قضیه و مشروط کردن پیشامد مورد نظر نسبت به پیشامد دیگر، می‌توان احتمال مورد نظر را محاسبه کرد.

این رابطه به خاطر بزرگداشت توماس بیز فیلسوف انگلیسی به نام فرمول بیز معروف است.

معادله اصلی[ویرایش]

فرض می‌کنیم B_1,... ,B_k یک افراز برای فضای نمونه‌ای S تشکیل دهند. طوری که به ازای هر j=1,... ,k، داشته باشیم P(B_j)>0 و فرض کنید A پیشامدی با فرض P(A)>0 باشد، در اینصورت به ازای i=1,... ,k، داریم:

P(B_i|A) = \frac{P(B_i) \, P(A|B_i)}{\sum_{j=1}^k P(B_j) \,P(A|B_j)}

برهان[ویرایش]

طبق تعریف احتمال شرطی داریم P(B_i|A)=\frac{P(B_iA)}{P(A)}. صورت کسر قضیه طبق دستور حاصلضرب در احتمال شرطی، برابر با P(B_i|A) و مخرج کسر بنابر قضیه قانون احتمال کل، برابر P(A) است.

اگر A و B دو پیشامد مفروض باشند، می‌توان پیشامد A را به صورت زیر در نظر بگیریم:

A=AB∪AB'

زیرا نقطه‌ای که در A باشد باید یا در هر دوی A و B باشد و یا این که در A باشد و در B وجود نداشته باشد.از طرفی می دانیم AB و AB' ناسازگار هستند، پس می‌توان نوشت:

P(A)=P(AB)+P(AB')=P(A│B)P(B)+P(A│B^c )P(B' )=p(A│B)P(B)+P(A│B')1-P(B)

این رابطه بیان می‌دارد که احتمال به وقوع پیوستن پیشامد A یک متوسط وزنی از احتمال شرطی (A│B) و احتمال شرطی (A│B') می‌باشد. وزن داده شده به هر احتمال شرطی به اندازهٔ احتمالی است که A نسبت به آن مشروط شده‌است.رابطه بالا را می‌توان به صورت زیر تعمیم داد. فرض کنید پیشامدهای B1، B2، ... و Bn پیشامدهای دو به دو ناسازگار باشند از طرفی رابطهٔ زیر نیز بین این پیشامدها برقرار است:

U(i=1)^n Fi=S

از این عبارت این گونه می‌توان استنباط کرد که حتماً یکی از پیشامدهای B1، B2، ... و Bn باید اتفاق بیفتداز طرفی می دانیم که پیشامدهای AB_iکه (i=1,2،…,n) دو به دو ناسازگار هستند و می‌نویسیم

A=⋃_(i=1)^n AB_i

از این جا می‌توان نوشت:

P(A)=\sum_{i=1}^{n} P(AB_i)=\sum_{i=1}^{n} p(A|B_i )P(B_i)

این رابطه بیان می‌دارد که چگونه می‌توان (P(A را با مشروط کردن به یکی از پیشامدهای داده شدهٔ B1، B2، ... و Bn محاسبه نمود. به طور کلی این رابطه باین می‌دارد که P(A) برابر است با متوسط وزنی (P(A│B_c به نحوی که هر وزن هر جمله برابر با احتمالی است که به آن مشروط گردیده‌است حال فرض کنید که پیشامد A اتفاق افتاده و می‌خواهیم احتمال این که یکی از پیشامدهای Bi اتفاق افتاده باشد را حساب کنیم:

P(B_i|A) = \frac{P(B_i) \, P(A|B_i)}{\sum_{j=1}^k P(B_j) \,P(A|B_j)}

یادگیری ماشینی به کمک نظریه بیز[ویرایش]

برای نگرش بیزی به یادگیری ماشین (و یا هر فرایند دیگر) می‌باید نخست:

  • دانش موجود در باره موضوع را بصورت احتمالاتی فرموله کنیم:برای اینکار باید مقادیر کیفی دانش را بصورت توزیع احتمال، فرضیات استقلال و غیره مدل کرد. این مدل دارای پارامترهای ناشناخته‌ای خواهد بود که برای هر یک از مقادیر ناشناخته، توزیع احتمال اولیه‌ای در نظر گرفته می‌شود که بازگو کننده باور ما به محتمل بودن هر یک ازاین مقادیر بدون دیدن داده‌است.
  • با جمع آوری داده و مشاهدهٔ آن، مقدار توزیع احتمال ثانویه را محاسبه می‌کنیم
  • با استفاده از این احتمال ثانویه:
  • به یک نتیجه گیری در مورد عدم قطعیت می‌رسیم
  • با میانگین گیری روی مقادیر احتمال ثانویه پیش بینی انجام می‌دهیم
  • برای کاهش خطای ثانویه مورد انتظار تصمیم گیری می‌کنیم

تئوری بیز در یادگیری ماشین[ویرایش]

در یادگیری ماشین معمولاً در فضای فرضیه H بدنبال بهترین فرضیه‌ای هستیم که درمورد داده‌های آموزشی D صدق کند. یک راه تعیین بهترین فرضیه، این است که بدنبال محتمل ترین فرضیه‌ای باشیم که با داشتن داده‌های آموزشی D و احتمال قبلی در مورد فرضیه‌های مختلف می‌توان انتظار داشت تئوری بیز چنین راه حلی را ارائه می‌دهد. این روش راه حل مستقیمی است که نیازی به جستجو ندارد.

سنگ بنای یادگیری بیزی را تئوری بیز تشکیل می‌دهد. این تئوری امکان محاسبه احتمال ثانویه را بر مبنای احتمالات اولیه می‌دهد:

P(h|D) = \frac{P(D | H)\, P(H)}{P(D)}\,

همانطور که مشاهده می‌شود با افزایش P(D) مقدار P(h|D) کاهش می‌یابد. زیرا هر چه احتمال مشاهده D مستقل از h بیشتر باشد به این معنا خواهد بود که D شواهد کمتری در حمایت از hدر بر دارد.

تعریف مفاهیم اولیه[ویرایش]

فرض کنید که فضای فرضیه h و مجموعه مثالهای آموزش D موجود باشند. مقادیر احتمال زیر را تعریف می‌کنیم:

P(h): احتمال اولیه‌ای (prior probablity) که فرضیه h قبل از مشاهده مثال آموزشی D داشته‌است . اگر چنین احتمالی موجود نباشد می‌توان به تمامی فرضیه‌ها احتمال یکسانی نسبت داد.
P(D):احتمال اولیه‌ای که داده آموزشی D مشاهده خواهد شد.
P(D|h):احتمال مشاهده داده آموزشی D به فرض آنکه فرضیه h صادق باشد.
P(h|D):احتمال ثانویه (posterior probablity) نامیده می‌شود یعنی احتمال اینکه با مشاهده داده آموزشی D فرضیه h صادق باشد و

در یادگیری ماشین به دنبال یافتن این احتمال است.

توجه شود که احتمال اولیه (P(h)) مستقل از داده آموزشی است ولی احتمال ثانویه (P(h|D)) تاثیر داده آموزشی را منعکس می‌کند.

روشهای یادگیری بیزی ماشینی[ویرایش]

روشهای بیزی فرضیه‌هائی ارائه می‌دهند که قادر به پیش بینی احتمالی هستند (مثل بیمار به احتمال ۹۳% بهبود می‌یابد) مثالهای جدید را می‌توان با ترکیب وزنی چندین فرضیه دسته بندی نمود. حتی در مواردی که روشهای بیزی قابل محاسبه نباشند، می‌توان از آنها به عنوان معیاری برای ارزیابی روشهای دیگر استفاده کرد تعدادی از روش‌های یادگیری ماشینی بیزی شامل موارد زیر است:

مثال[ویرایش]

در یک مسئله تشخیص بیماری با دو فرضیه روبرو هستیم:

  1. بیمار دارای سرطان است
  2. بیمار سالم است

دادهای آزمایشگاهی نشان می‌دهد که ۰٫۰۰۸ جمعیت دارای این بیماری هستند و بعلت نادقیق بودن تست‌های آزمایشگاهی نتایج آن بصورت زیر است:

در ۹۸% مواقعی که شخص واقعاً بیمار است نتیجه صحیح مثبت حاصل می‌شود.
در ۹۷% مواقعی که بیمار سالم است نتیجه صحیح منفی حاصل می‌شود.
P(cancer)=0.008, P(+|cancer)=0.98, P(+|~cancer)=0.03,
P(~cancer)=0.992, P(-|cancer)=0.02, P(-|~cancer)=0.97,

حال اگر بیمار جدیدی مشاهده شود که جواب آزمایشگاه مثبت باشد، آیا باید بیمار را مبتلا به سرطان بدانیم؟ احتمال ابتلای بیمار به سرطان عبارت است از:

P(cancer|+) = P(+|cancer) P(cancer) / P(+) = (0.98)(0.008) / P(+) = 0.0078 / P(+)

احتمال نداشتن سرطان عبارت است از:

P(~cancer|+) = P(+|~cancer) P(~cancer) / P(+) = (0.03)(0.992) / P(+) = 0.0298 / P(+)

لذا فرضیه MAP عبارت خواهد بود از:

hmap=~cancer

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  • دگروت-اسکرویش. احتمال و آمار جلد اول. ترجمهٔ دکتر عین‌الله پاشا. ۱۳۸۵. ۹۸. ISBN 978-964-395-871-8. 

sheldon ross sixth edition. A first course of probability.