قضیه بیز

قضیه بیز (به انگلیسی: Bayes' theorem) روشی برای دسته‌بندی پدیده‌ها، بر پایه احتمال وقوع یا عدم وقوع یک پدیده است و در نظریهٔ احتمالات با اهمیت و پرکاربرد است. اگر برای فضای نمونه‌ای مفروضی بتوانیم چنان افرازی انتخاب کنیم که با دانستن اینکه کدامیک از پیشامدهای افراز شده رخ داده‌است، بخش مهمی از عدم قطعیت تقلیل می‌یابد.

این قضیه از آن جهت مفید است که می‌توان از طریق آن، احتمال یک پیشامد را با مشروط کردن نسبت به وقوع یا عدم وقوع یک پیشامد دیگر محاسبه کرد. در بسیاری از حالت‌ها، محاسبهٔ احتمال یک پیشامد به صورت مستقیم کاری دشوار است. با استفاده از این قضیه و مشروط کردن پیشامد مورد نظر نسبت به پیشامد دیگر، می‌توان احتمال مورد نظر را محاسبه کرد.

این رابطه به خاطر بزرگداشت توماس بیز فیلسوف انگلیسی به نام فرمول بیز معروف است.

معادلهٔ اصلی[ویرایش]

فرض می‌کنیم $B_{1},...,B_{k}$ یک افراز برای فضای نمونه‌ای $S$ تشکیل دهند. طوری‌که به ازای هر $j=1,...,k$ ، داشته باشیم $P(B_{j})>0$ و فرض کنید $A$ پیشامدی با فرض $P(A)>0$ باشد، در اینصورت به ازای $i=1,...,k$ ، داریم:

$P(B_{i}|A)={\frac {P(B_{i})\,P(A|B_{i})}{\sum _{j=1}^{k}P(B_{j})\,P(A|B_{j})}}$

برهان[ویرایش]

طبق تعریف احتمال شرطی داریم $P(B_{i}|A)={\frac {P(B_{i}\cap A)}{P(A)}}$ . صورت کسر قضیه طبق دستور حاصلضرب در احتمال شرطی، برابر با $P(B_{i}|A)$ و مخرج کسر بنابر قضیه قانون احتمال کل، برابر $P(A)$ است.

اگر A و B دو پیشامد مفروض باشند، می‌توان پیشامد A را به صورت زیر در نظر بگیریم:

$A=(A\cap B)\cup (A\cap B')$

زیرا نقطه‌ای که در $A$ باشد باید یا در هر دوی $A$ و $B$ باشد یا این که در $A$ باشد و در $B$ وجود نداشته باشد. از طرفی می‌دانیم $A\cap B$ و $A\cap B'$ ناسازگار هستند، پس می‌توان نوشت:

$P(A)=P(AB)+P(AB')=P(A|B)P(B)+P(A|B')P(B')=P(A|B)P(B)+P(A|B')\left(1-P(B)\right)$

این رابطه بیان می‌دارد که احتمال به وقوع پیوستن پیشامد $A$ یک میانگین وزنی از احتمال شرطی $(A|B)$ و احتمال شرطی $(A|B')$ می‌باشد. وزن داده شده به هر احتمال شرطی به اندازهٔ احتمالی است که $A$ نسبت به آن مشروط شده‌است. رابطه بالا را می‌توان به صورت زیر تعمیم داد. فرض کنید پیشامدهای $B_{1}$ ، $B_{2}$ ، … و $B_{n}$ پیشامدهای دو به دو ناسازگار باشند از طرفی رابطهٔ زیر نیز بین این پیشامدها برقرار است:

$S=\cup _{i}^{n}F_{i}$

از این عبارت این گونه می‌توان استنباط کرد که حتماً یکی از پیشامدهای $B_{1}$ ، $B_{2}$ ، … و $B_{n}$ باید اتفاق بیفتد. از طرفی می‌دانیم که پیشامدهای $A\cap B_{i}$ برای $i=1,\cdots ,n$ ، دو به دو ناسازگار هستند و می‌نویسیم:

$A=\cup _{i}^{n}\left(A\cap B_{i}\right)$

از این‌جا می‌توان نوشت:

P(A)=\sum _{i=1}^{n}P(A\cap B_{i})=\sum _{i=1}^{n}p(A|B_{i})P(B_{i})

این رابطه بیان می‌دارد که چگونه می‌توان $P(A)$ را با مشروط کردن به یکی از پیشامدهای داده شدهٔ $B_{1}$ ، $B_{2}$ ، … و $B_{n}$ محاسبه نمود. به‌طور کلی این رابطه باین می‌دارد که $P(A)$ برابر است با میانگین وزنی $P(A|B')$ به نحوی که هر وزن هر جمله برابر با احتمالی است که به آن مشروط گردیده‌است حال فرض کنید که پیشامد A اتفاق افتاده و می‌خواهیم احتمال این که یکی از پیشامدهای $B_{i}$ اتفاق افتاده باشد را حساب کنیم:

$P(B_{i}|A)={\frac {P(B_{i})\,P(A|B_{i})}{\sum _{j=1}^{k}P(B_{j})\,P(A|B_{j})}}$

یادگیری ماشینی به کمک نظریه بیز[ویرایش]

برای نگرش بیزی به یادگیری ماشین (و یا هر فرایند دیگر) می‌باید نخست:

دانش موجود دربارهٔ موضوع را به صورت احتمالاتی فرموله کنیم:برای اینکار باید مقادیر کیفی دانش را به صورت توزیع احتمال، فرضیات استقلال و غیره مدل کرد. این مدل دارای پارامترهای ناشناخته‌ای خواهد بود که برای هر یک از مقادیر ناشناخته، توزیع احتمال اولیه‌ای در نظر گرفته می‌شود که بازگوکننده باور ما به محتمل بودن هر یک از این مقادیر بدون دیدن داده‌است.
با جمع‌آوری داده و مشاهدهٔ آن، مقدار توزیع احتمال ثانویه را محاسبه می‌کنیم
با استفاده از این احتمال ثانویه:
به یک نتیجه‌گیری در مورد عدم قطعیت می‌رسیم
با میانگین‌گیری روی مقادیر احتمال ثانویه پیش‌بینی انجام می‌دهیم
برای کاهش خطای ثانویه مورد انتظار تصمیم‌گیری می‌کنیم

تئوری بیز در یادگیری ماشین[ویرایش]

در یادگیری ماشین معمولاً در فضای فرضیه $h$ بدنبال بهترین فرضیه‌ای هستیم که در مورد داده‌های آموزشی $D$ صدق کند. یک راه تعیین بهترین فرضیه، این است که بدنبال محتمل‌ترین فرضیه‌ای باشیم که با داشتن داده‌های آموزشی $D$ و احتمال قبلی در مورد فرضیه‌های مختلف می‌توان انتظار داشت تئوری بیز چنین راه حلی را ارائه می‌دهد. این روش راه حل مستقیمی است که نیازی به جستجو ندارد.

سنگ بنای یادگیری بیزی را تئوری بیز تشکیل می‌دهد. این تئوری امکان محاسبه احتمال ثانویه را بر مبنای احتمالات اولیه می‌دهد:

P(h|D)={\frac {P(D|h)\,P(h)}{P(D)}}\,

همان‌طور که مشاهده می‌شود با افزایش $P(D)$ مقدار $P(h|D)$ کاهش می‌یابد؛ زیرا هر چه احتمال مشاهده $D$ مستقل از $h$ بیشتر باشد به این معنا خواهد بود که $D$ شواهد کمتری در حمایت از hدربردارد.

تعریف مفاهیم اولیه[ویرایش]

فرض کنید که فضای فرضیه $h$ و مجموعه مثال‌های آموزش $D$ موجود باشند. مقادیر احتمال زیر را تعریف می‌کنیم:

P(h)

: احتمال پیشین (prior probablity) که فرضیه

h

قبل از مشاهده داده آموزشی

D

داشته‌است. اگر چنین احتمالی موجود نباشد می‌توان به تمامی فرضیه‌ها احتمال یکسانی نسبت داد.

P(D)

: احتمال مشاهده داده آموزشی

D

.

P(D|h)

: درست نمایی (likelihood) یا احتمال مشاهده داده آموزشی

D

به فرض آنکه فرضیه

h

صادق باشد.

P(h|D)

: احتمال پسین (posterior probablity) یا احتمال فرضیه

h

به شرط مشاهده داده آموزشی

D

.

توجه شود که احتمال پیشین $P(h)$ مستقل از داده آموزشی است، ولی احتمال پسین $P(h|D)$ تأثیر داده آموزشی را منعکس می‌کند.

روش‌های یادگیری بیزی ماشینی[ویرایش]

روش‌های بیزی فرضیه‌هایی ارائه می‌دهند که قادر به پیش‌بینی احتمالی هستند (مثل بیمار به احتمال ۹۳٪ بهبود می‌یابد) مثال‌های جدید را می‌توان با ترکیب وزنی چندین فرضیه دسته‌بندی نمود. حتی در مواردی که روش‌های بیزی قابل محاسبه نباشند، می‌توان از آن‌ها به عنوان معیاری برای ارزیابی روش‌های دیگر استفاده کرد تعدادی از روش‌های یادگیری ماشینی بیزی شامل موارد زیر است: