برآورد درستنمایی بیشینه
|
|
این مقاله نیازمند تمیزکاری است. لطفاً تا جای امکان آنرا از نظر املا، انشا، چیدمان و درستی بهتر کنید، سپس این الگو را از بالای مقاله بردارید. محتویات این مقاله ممکن است غیر قابل اعتماد و نادرست یا جانبدارانه باشد یا قوانین حقوق پدیدآورندگان را نقض کرده باشد. |
در علم آمار برآورد درستنمایی بیشینه (که به طور خلاصه به آن MLE مخفف عبارت انگلیسی maximum likelihood estimation نیز گفته میشود) روشی است برای برآورد کردن پارامترهای یک مدل آماری. وقتی بر مجموعهای از دادهها عملیات انجام میشود یک مدل آماری به دست میآید آنگاه درستنمایی بیشینه میتواند تخمینی از پارامترهای مدل ارائه دهد. روش درستنمایی بیشینه به بسیاری از روشهای شناخته شدهٔ تخمین آماری شباهت دارد. فرض کنید برای شخصی اطلاعات مربوط به قد زرافههای ماده بالغ موجود در یک جمعیت مهم باشد و این شخص به خاطر محدودیت هزینه یا زمان نتواند قد تک تک این زرافهها را اندازه بگیرد، این شخص تنها میداند که این طول قدها از توزیع نرمال پیروی میکنند ولی میانگین و واریانس توزیع را نمیداند حال با استفاده از روش درستنمایی بیشینه و با در دست داشتن اطلاعات مربوط به نمونهای محدود از جمعیت میتواند تخمینی از میانگین و واریانس این توزیع بدست اورد. MLE این کار را به این ترتیب انجام میدهد که واریانس و میانگین را مجهول در نظر میگیرد آنگاه مقادیری را به آنها نسبت میدهد که با توجه به اطلاعات موجود محتمل ترین حالت باشد. در حالت کلی روش MLE در مورد یک مجموعهٔ مشخص از دادهها عبارتست از نسبت دادن مقادیری به پارامترهای مدل که در نتیجهٔ ان توزیعی تولید شود که بیشترین احتمال را به دادههای مشاهده شده نسبت دهد (یعنی مقادیری از پارامتر که تابع درستنمایی را بیشینه کند). MLE یک سازو کار مشخص را برای تخمین ارائه میدهد که در مورد توزیع نرمال و بسیاری توزیعهای دیگر به طور خوشتعریف عمل میکند. با این حال در بعضی موارد مشکلاتی پیش میآید از قبیل اینکه برآوردگرهای درستنمایی بیشینه نامناسب اند یا اصلا وجود ندارند.
محتویات |
اصول[ویرایش]
فرض کنید n مشاهد ه ی زیر را داشته باشیم x۱، x۲، …، xn که بطور مستقل از هم و یکنواخت توزیع شده و از یک توزیع با تابع توزیع احتمال نامشخص ƒ۰ پیروی میکنند. ƒ۰ بطور محتمل متعلق به یک خانواده مشخص از توزیع های نرمال مانند { ƒ(·|θ), θ ∈ Θ } میباشد که مدل پارامتری نامیده میشود بنابراین ƒ0 = ƒ(·|θ0) . مقدار θ0 نامعلوم است و به عنوان مقدار صحیح پارامتر در نظر گرفته میشود. حال میخواهیم براورد گری چون
بیابیم که تا حد امکان به مقدار صحیح یعنی θ0 نزدیک باشد. هم xi ها و هم پارامتر θ هر دو میتوانند بردار هم باشند. برای استفاده از روش درستنمایی بیشینه ابتدا باید تابع چگالی توام را برای همهٔ مشاهدات مشخص کنیم. برای حالتی که توزیع ها مستقل و یکنواخت اند این تابع چگالی توام به صورت زیر است
حال میخواهیم از زاویه ای متفاوت به این تابع نگاه کنیم: فرض کنید مشاهدات x1, x2, ..., xn پارامتر های ثابت و θ پارامتر متغیر این تابع باشد از این منظر این تابع، توزیع تابع درستنمایی نامیده میشود. در عمل بسیار راحتتر است که با لگاریتم تابع درستنمایی کار کنیم
که لگاریتم درستنمایی نامیده میشود.یا نمونه ی تراز شده اش که میانگین درستنمایی لگاریتمی نامیده میشود.
علامت هت بالای
نشان دهنده ی انست که ان وابسته به یک براوردگر می باشد. در واقع
مقدار لگاریتم درستنمایی انتظاری یک مشاهده ی منفرد را در مدل بیان میکند. روش درستنمایی بیشینه θ0 را با یافتن مقداری از θ که
را بیشینه کند تخمین میزند. این روش تخمین یک تقریب درستنمایی بیشینه از θ0 می باشد:
در این روش تفاوتی نمیکند که تابع درستنمایی را بیشینه کنیم یا لگاریتم درستنمایی را زیرا لگاریتم یک تبدیل یکنواست. برای بسیاری از مدل ها میتوان MLE را به صورت تابعی صریح از داده های مشاهده شده ی x۱، …، xn پیدا کرد. اما در بسیاری از مسایل پیدا کردن یک فرم بسته برای تابع درستنمایی ممکن نیست و باید از روشهای عددی برای یافتن MLE استفاده کرد. برای برخی مسایل ممکن است تقریب هایی متفاوت موجود باشند که تابع را بیشینه کنند و برای برخی دیگر نیز هیچ تقریب مناسبی وجود ندارد. در گفته های فوق فرض بر این بود که داده ها یه طور مستقل و یکنواخت توزیع شده اند. اما این روش را میتوان به حوزه های وسیع تری نیز گسترش داد. در مسایلی پیچیده تر چون سری های زمانی حتی فرض استقلال هم میتواند حذف شود.
یک براوردگر درستنمایی بیشینه با یک براوردگر بیزی احتمال حداکثر که روی پارامترها یک توزیع پیشینی یکنواخت را میدهد منطبق است.
ویژگی ها[ویرایش]
درستنمایی بیشینه یک براوردگر اکسترمم بنا شده بر تابع هدف زیر میباشد
و مشابه نمونهای اش درستنمایی لگاریتمی میانگین
، میباشد. مقدار انتظاری اینجا متناظر با چگالی صحیح f(·|θ۰) محاسبه شود. براوردگر درستنمایی بیشینه اساسا هیچگونه ویژگیهای بهینه برای نمونههای متناهی ندارد. با این حال این روش برای بیان بسیاری از مسایل دارای ویژگیهای مجانبی جالبی میباشند که عبارتند از:
- سازگاری: براوردگر همگرایی در احتمال نسبت به مقادیر تخمین زده شده دارد
- نرمالی مجانبی: متناظر با افزایش اندازهٔ نمونه توزیع MLE به یک توزیع گاوسی میل میکند که میانگین ان

و ماتریس کوواریانس ان برابر است با وارون ماتریس اطلاعات فیشر
- کفایت: یعنی کران کرامر-رائو را زمانی که اندازهٔ نمونه به بینهایت میل میکند براورده کند. این بدین معنی است که هیچ براوردگر مجانبی نااریبی خطای مربعی شدهٔ میانگین مجانبی کمتر از MLE ندارد.
- کفایت مرتبه دوم بعد از تصحیح برای اریب بودن.
مثال[ویرایش]
توزیع گسسته ، فضای نمونه متناهی[ویرایش]
فرض کنید کسی می خواهد مشخص کند که یک سکه چگونه پشت یا رو می آید ( با چه احتمالاتی ) فرض کنید احتمال رو آمدن P باشد . هدف تعیین P است .
فرض کنید سکه ۸۰ بار پرتاب شده باشد ، نمونه ممکن است چیزی شبیه این باشد : x۱ = H، x۲ = T ، ...، x۸۰ = T
احتمال پشت آمدن ۱ + p- است . فرض کنید نتیجه ۴۹ رو و ۳۱ پشت باشد و فرض کنید سکه از یک جعبه برداشته شود : یکی که احتمال رو آمدنش ۱/۳ است ، یکی که احتمال رو آمدنش ۱/۲ است و دیگری که احتمال رو آمدنش ۲/۳ است . بر چسب سکه ها گم شده است . با استفاده از این روش می توان سکه ی با بیشترین احتمال رو آمدن را پیدا کرد . داریم :
توزیع گسسته ، فضای نمونه پیوسته[ویرایش]
حالا فرض کنید که فقط یک سکه داریم که احتمال آن می تواند بین صفر و یک باشد . برای بیشینه کردن تابع بیشترین بخت داریم :
و بیشینه کردن برای تمام مقادیر ممکن احتمال بین صفر و یک است .
یک راه برای بیشینه کردن این تابع مشتق گیری نسبت به p و صفر قرار دادن آن است .
/ که دارای جواب p=0 و p=1 و p=49/۸۰ است . جوابی که بخت را بیشینه میکند p=49/۸۰ است . بنابراین بیشترین احتمال برای ۴۹/۸۰ است .
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||






![\begin{align}
\Pr(\mathrm{H} = 49 \mid p=1/3) & = \binom{80}{49}(1/3)^{49}(1-1/3)^{31} \approx 0.000, \\[6pt]
\Pr(\mathrm{H} = 49 \mid p=1/2) & = \binom{80}{49}(1/2)^{49}(1-1/2)^{31} \approx 0.012, \\[6pt]
\Pr(\mathrm{H} = 49 \mid p=2/3) & = \binom{80}{49}(2/3)^{49}(1-2/3)^{31} \approx 0.054.
\end{align}](http://upload.wikimedia.org/math/2/a/a/2aa9f0071232129aa4833af56189a048.png)

![\begin{align}
{0}&{} = \frac{\partial}{\partial p} \left( \binom{80}{49} p^{49}(1-p)^{31} \right) \\[8pt]
& {}\propto 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\[8pt]
& {}= p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right] \\[8pt]
& {}= p^{48}(1-p)^{30}\left[ 49 - 80p \right]
\end{align}](http://upload.wikimedia.org/math/8/b/e/8beafd02dbb3b1022936fae056d4f838.png)