برآورد درست‌نمایی بیشینه

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

در علم آمار برآورد درست‌نمایی بیشینه (که به طور خلاصه به آن MLE مخفف عبارت انگلیسی maximum likelihood estimation نیز گفته می‌شود) روشی است برای برآورد کردن پارامترهای یک مدل آماری. وقتی بر مجموعه‌ای از داده‌ها عملیات انجام می‌شود یک مدل آماری به دست می‌آید آنگاه درست‌نمایی بیشینه می‌تواند تخمینی از پارامترهای مدل ارائه دهد. روش درست‌نمایی بیشینه به بسیاری از روش‌های شناخته شدهٔ تخمین آماری شباهت دارد. فرض کنید برای شخصی اطلاعات مربوط به قد زرافه‌های ماده بالغ موجود در یک جمعیت مهم باشد و این شخص به خاطر محدودیت هزینه یا زمان نتواند قد تک تک این زرافه‌ها را اندازه بگیرد، این شخص تنها می‌داند که این طول قدها از توزیع نرمال پیروی می‌کنند ولی میانگین و واریانس توزیع را نمی‌داند حال با استفاده از روش درست‌نمایی بیشینه و با در دست داشتن اطلاعات مربوط به نمونه‌ای محدود از جمعیت می‌تواند تخمینی از میانگین و واریانس این توزیع بدست اورد. MLE این کار را به این ترتیب انجام می‌دهد که واریانس و میانگین را مجهول در نظر می‌گیرد آنگاه مقادیری را به آنها نسبت می‌دهد که با توجه به اطلاعات موجود محتمل ترین حالت باشد. در حالت کلی روش MLE در مورد یک مجموعهٔ مشخص از داده‌ها عبارتست از نسبت دادن مقادیری به پارامترهای مدل که در نتیجهٔ ان توزیعی تولید شود که بیشترین احتمال را به داده‌های مشاهده شده نسبت دهد (یعنی مقادیری از پارامتر که تابع درست‌نمایی را بیشینه کند). MLE یک سازو کار مشخص را برای تخمین ارائه می‌دهد که در مورد توزیع نرمال و بسیاری توزیع‌های دیگر به طور خوشتعریف عمل می‌کند. با این حال در بعضی موارد مشکلاتی پیش می‌آید از قبیل اینکه برآوردگرهای درست‌نمایی بیشینه نامناسب اند یا اصلاً وجود ندارند.

اصول[ویرایش]

فرض کنید n مشاهده ی زیر را داشته باشیم x۱، x۲، …، xn که بطور مستقل از هم و یکنواخت توزیع شده و از یک توزیع با تابع توزیع احتمال نامشخص ƒ۰ پیروی میکنند. ƒ۰ بطور محتمل متعلق به یک خانواده مشخص از توزیع های نرمال مانند { ƒ(·|θ), θ ∈ Θ } میباشد که مدل پارامتری نامیده می‌شود بنابراین ƒ0 = ƒ(·|θ0) . مقدار θ0 نامعلوم است و به عنوان مقدار صحیح پارامتر در نظر گرفته می‌شود. حال میخواهیم براورد گری چون \scriptstyle\hat\theta بیابیم که تا حد امکان به مقدار صحیح یعنی θ0 نزدیک باشد. هم xi ها و هم پارامتر θ هر دو میتوانند بردار هم باشند. برای استفاده از روش درست‌نمایی بیشینه ابتدا باید تابع چگالی توام را برای همهٔ مشاهدات مشخص کنیم. برای حالتی که توزیع ها مستقل و یکنواخت اند این تابع چگالی توام به صورت زیر است


    f(x_1,x_2,\ldots,x_n\;|\;\theta) = f(x_1|\theta)\cdot f(x_2|\theta)\cdots f(x_n|\theta).

حال میخواهیم از زاویه ای متفاوت به این تابع نگاه کنیم: فرض کنید مشاهدات x1, x2, ..., xn پارامتر های ثابت و θ پارامتر متغیر این تابع باشد از این منظر این تابع، توزیع تابع درست‌نمایی نامیده می‌شود. در عمل بسیار راحت‌تر است که با لگاریتم تابع درست‌نمایی کار کنیم


   \mathcal{L}(\theta\,|\,x_1,\ldots,x_n) = f(x_1,x_2,\ldots,x_n\;|\;\theta) = \prod_{i=1}^n f(x_i|\theta).

که لگاریتم درست‌نمایی نامیده می‌شود.یا نمونه ی تراز شده اش که میانگین درست‌نمایی لگاریتمی نامیده می‌شود.


    \ln\mathcal{L}(\theta\,|\,x_1,\ldots,x_n) = \sum_{i=1}^n \ln f(x_i|\theta), \qquad \hat\ell = \frac1n \ln\mathcal{L}.

علامت هت بالای \scriptstyle\ell نشان دهنده ی انست که ان وابسته به یک براوردگر می باشد. در واقع \scriptstyle\hat\ell مقدار لگاریتم درست‌نمایی انتظاری یک مشاهده ی منفرد را در مدل بیان میکند. روش درست‌نمایی بیشینه θ0 را با یافتن مقداری از θ که \scriptstyle\hat\ell(\theta|x) را بیشینه کند تخمین میزند. این روش تخمین یک تقریب درست‌نمایی بیشینه از θ0 می باشد:


    \{ \hat\theta_\mathrm{mle}\} \subseteq \{ \underset{\theta\in\Theta}{\operatorname{arg\,max}}\ \hat\ell(\theta\,|\,x_1,\ldots,x_n) \}.

در این روش تفاوتی نمی‌کند که تابع درست‌نمایی را بیشینه کنیم یا لگاریتم درست‌نمایی را زیرا لگاریتم یک تبدیل یکنواست. برای بسیاری از مدل ها میتوان MLE را به صورت تابعی صریح از داده های مشاهده شده ی x۱، …، xn پیدا کرد. اما در بسیاری از مسایل پیدا کردن یک فرم بسته برای تابع درست‌نمایی ممکن نیست و باید از روشهای عددی برای یافتن MLE استفاده کرد. برای برخی مسایل ممکن است تقریب هایی متفاوت موجود باشند که تابع را بیشینه کنند و برای برخی دیگر نیز هیچ تقریب مناسبی وجود ندارد. در گفته های فوق فرض بر این بود که داده ها یه طور مستقل و یکنواخت توزیع شده اند. اما این روش را میتوان به حوزه های وسیع تری نیز گسترش داد. در مسایلی پیچیده تر چون سری های زمانی حتی فرض استقلال هم میتواند حذف شود.

یک براوردگر درست‌نمایی بیشینه با یک براوردگر بیزی احتمال حداکثر که روی پارامترها یک توزیع پیشینی یکنواخت را میدهد منطبق است.

ویژگی ها[ویرایش]

درست‌نمایی بیشینه یک براوردگر اکسترمم بنا شده بر تابع هدف زیر می‌باشد


    \hat\ell(\theta|x)=\frac1n \sum_{i=1}^n \ln f(x_i|\theta),

و مشابه نمونه‌ای اش درست‌نمایی لگاریتمی میانگین \scriptstyle\ell(\theta) = \operatorname{E}[\, \ln f(x_i|\theta) \,]، می‌باشد. مقدار انتظاری اینجا متناظر با چگالی صحیح f(·|θ۰) محاسبه شود.

براوردگر درست‌نمایی بیشینه اساساً هیچگونه ویژگی‌های بهینه برای نمونه‌های متناهی ندارد. با این حال این روش برای بیان بسیاری از مسایل دارای ویژگی‌های مجانبی جالبی می‌باشند که عبارتند از:

  • سازگاری: براوردگر همگرایی در احتمال نسبت به مقادیر تخمین زده شده دارد
  • نرمالی مجانبی: متناظر با افزایش اندازهٔ نمونه توزیع MLE به یک توزیع گاوسی میل می‌کند که میانگین ان \theta و ماتریس کوواریانس ان برابر است با وارون ماتریس اطلاعات فیشر.
  • کارایی: یعنی کران کرامر-رائو را زمانی که اندازهٔ نمونه به بینهایت میل می‌کند براورده کند. این بدین معنی است که هیچ براوردگر مجانبی نااریبی خطای مربعی شدهٔ میانگین مجانبی کمتر از MLE ندارد.
  • کفایت مرتبه دوم بعد از تصحیح برای اریب بودن.

مثال[ویرایش]

توزیع گسسته ، فضای نمونه متناهی[ویرایش]

فرض کنید کسی می خواهد مشخص کند که یک سکه چگونه پشت یا رو می آید ( با چه احتمالاتی ) فرض کنید احتمال رو آمدن P باشد . هدف تعیین P است .

فرض کنید سکه ۸۰ بار پرتاب شده باشد ، نمونه ممکن است چیزی شبیه این باشد : x۱ = H، x۲ = T ، ...، x۸۰ = T

احتمال پشت آمدن ۱ + p- است . فرض کنید نتیجه ۴۹ رو و ۳۱ پشت باشد و فرض کنید سکه از یک جعبه برداشته شود : یکی که احتمال رو آمدنش ۱/۳ است ، یکی که احتمال رو آمدنش ۱/۲ است و دیگری که احتمال رو آمدنش ۲/۳ است . بر چسب سکه ها گم شده است . با استفاده از این روش می توان سکه ی با بیشترین احتمال رو آمدن را پیدا کرد . داریم :


\begin{align}
\Pr(\mathrm{H} = 49 \mid p=1/3) & = \binom{80}{49}(1/3)^{49}(1-1/3)^{31} \approx 0.000, \\[6pt]
\Pr(\mathrm{H} = 49 \mid p=1/2) & = \binom{80}{49}(1/2)^{49}(1-1/2)^{31} \approx 0.012, \\[6pt]
\Pr(\mathrm{H} = 49 \mid p=2/3) & = \binom{80}{49}(2/3)^{49}(1-2/3)^{31} \approx 0.054.
\end{align}

توزیع گسسته ، فضای نمونه پیوسته[ویرایش]

حالا فرض کنید که فقط یک سکه داریم که احتمال آن می تواند بین صفر و یک باشد . برای بیشینه کردن تابع بیشترین بخت داریم :


L(p) = f_D(\mathrm{H} = 49 \mid p) = \binom{80}{49} p^{49}(1-p)^{31},

و بیشینه کردن برای تمام مقادیر ممکن احتمال بین صفر و یک است .

likelihood function for proportion value of a binomial process (n = 10)

یک راه برای بیشینه کردن این تابع مشتق گیری نسبت به p و صفر قرار دادن آن است .


\begin{align}
{0}&{} = \frac{\partial}{\partial p} \left( \binom{80}{49} p^{49}(1-p)^{31} \right) \\[8pt]
  & {}\propto 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\[8pt]
  & {}= p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right]  \\[8pt]
  & {}= p^{48}(1-p)^{30}\left[ 49 - 80p \right]
\end{align}

/ که دارای جواب p=0 و p=1 و p=49/۸۰ است . جوابی که بخت را بیشینه میکند p=49/۸۰ است . بنابراین بیشترین احتمال برای ۴۹/۸۰ است .