برآورد درست‌نمایی بیشینه

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

در علم آمار برآورد درست‌نمایی بیشینه (که به طور خلاصه به آن MLE (مخفف عبارت انگلیسی maximum likelihood estimation) نیز گفته می‌شود) روشی است برای برآورد کردن پارامترهای یک مدل آماری. وقتی بر مجموعه‌ای از داده‌ها عملیات انجام می‌شود یک مدل آماری به دست می‌آید آنگاه درست‌نمایی بیشینه می‌تواند تخمینی از پارامترهای مدل ارائه دهد. روش درست‌نمایی بیشینه به بسیاری از روش‌های شناخته شدهٔ تخمین آماری شباهت دارد. فرض کنید برای شخصی اطلاعات مربوط به قد زرافه‌های ماده بالغ موجود در یک جمعیت مهم باشد و این شخص به خاطر محدودیت هزینه یا زمان نتواند قد تک تک این زرافه‌ها را اندازه بگیرد، این شخص تنها می‌داند که این طول قدها از توزیع نرمال پیروی می‌کنند ولی میانگین و واریانس توزیع را نمی‌داند حال با استفاده از روش درست‌نمایی بیشینه و با در دست داشتن اطلاعات مربوط به نمونه‌ای محدود از جمعیت می‌تواند تخمینی از میانگین و واریانس این توزیع بدست اورد. MLE این کار را به این ترتیب انجام می‌دهد که واریانس و میانگین را مجهول در نظر می‌گیرد آنگاه مقادیری را به آنها نسبت می‌دهد که با توجه به اطلاعات موجود محتمل ترین حالت باشد. در حالت کلی روش MLE در مورد یک مجموعهٔ مشخص از داده‌ها عبارتست از نسبت دادن مقادیری به پارامترهای مدل که در نتیجهٔ ان توزیعی تولید شود که بیشترین احتمال را به داده‌های مشاهده شده نسبت دهد (یعنی مقادیری از پارامتر که تابع درست‌نمایی را بیشینه کند). MLE یک سازو کار مشخص را برای تخمین ارائه می‌دهد که در مورد توزیع نرمال و بسیاری توزیع‌های دیگر به طور خوشتعریف عمل می‌کند. با این حال در بعضی موارد مشکلاتی پیش می‌آید از قبیل اینکه برآوردگرهای درست‌نمایی بیشینه نامناسب اند یا اصلاً وجود ندارند.

اصول[ویرایش]

فرض کنید n مشاهده ی زیر را داشته باشیم x۱، x۲، …، xn که بطور مستقل از هم و یکنواخت توزیع شده و از یک توزیع با تابع توزیع احتمال نامشخص ƒ۰ پیروی میکنند. ƒ۰ بطور محتمل متعلق به یک خانواده مشخص از توزیع های نرمال مانند { ƒ(·|θ), θ ∈ Θ } میباشد که مدل پارامتری نامیده می‌شود بنابراین ƒ0 = ƒ(·|θ0) . مقدار θ0 نامعلوم است و به عنوان مقدار صحیح پارامتر در نظر گرفته می‌شود. حال میخواهیم براورد گری چون بیابیم که تا حد امکان به مقدار صحیح یعنی θ0 نزدیک باشد. هم xi ها و هم پارامتر θ هر دو میتوانند بردار هم باشند. برای استفاده از روش درست‌نمایی بیشینه ابتدا باید تابع چگالی توام را برای همهٔ مشاهدات مشخص کنیم. برای حالتی که توزیع ها مستقل و یکنواخت اند این تابع چگالی توام به صورت زیر است

حال میخواهیم از زاویه ای متفاوت به این تابع نگاه کنیم: فرض کنید مشاهدات x1, x2, ..., xn پارامتر های ثابت و θ پارامتر متغیر این تابع باشد از این منظر این تابع، توزیع تابع درست‌نمایی نامیده می‌شود. در عمل بسیار راحت‌تر است که با لگاریتم تابع درست‌نمایی کار کنیم

که لگاریتم درست‌نمایی نامیده می‌شود.یا نمونه ی تراز شده اش که میانگین درست‌نمایی لگاریتمی نامیده می‌شود.

علامت هت بالای نشان دهنده ی انست که ان وابسته به یک براوردگر می باشد. در واقع مقدار لگاریتم درست‌نمایی انتظاری یک مشاهده ی منفرد را در مدل بیان میکند. روش درست‌نمایی بیشینه θ0 را با یافتن مقداری از θ که را بیشینه کند تخمین میزند. این روش تخمین یک تقریب درست‌نمایی بیشینه از θ0 می باشد:

در این روش تفاوتی نمی‌کند که تابع درست‌نمایی را بیشینه کنیم یا لگاریتم درست‌نمایی را زیرا لگاریتم یک تبدیل یکنواست. برای بسیاری از مدل ها میتوان MLE را به صورت تابعی صریح از داده های مشاهده شده ی x۱، …، xn پیدا کرد. اما در بسیاری از مسایل پیدا کردن یک فرم بسته برای تابع درست‌نمایی ممکن نیست و باید از روشهای عددی برای یافتن MLE استفاده کرد. برای برخی مسایل ممکن است تقریب هایی متفاوت موجود باشند که تابع را بیشینه کنند و برای برخی دیگر نیز هیچ تقریب مناسبی وجود ندارد. در گفته های فوق فرض بر این بود که داده ها یه طور مستقل و یکنواخت توزیع شده اند. اما این روش را میتوان به حوزه های وسیع تری نیز گسترش داد. در مسایلی پیچیده تر چون سری های زمانی حتی فرض استقلال هم میتواند حذف شود.

یک براوردگر درست‌نمایی بیشینه با یک براوردگر بیزی احتمال حداکثر که روی پارامترها یک توزیع پیشینی یکنواخت را میدهد منطبق است.

در مطالب فوق فرض بر این است که داده ها مستقل و دارای توزیع یکسان هستند. این روش می تواند برای حالت های بیشتر از جمله نوشتن تابع چگالی مشترک ( f (x1, ..., xn | θ (پارامتر θ محدود و مستقل از سایز نمونه ها n) و در یک فرمت ساده تر برای داده های ناهمگون با تابع چگالی مشترک ( f1 (x1 | θ) ·f2(x2|θ) · ··· · fn(xn | θ استفاده کرد. فرض می کنیم که هر نمونه مشاهده شده xi قابل استخراج از یک متغیر تصادفی با تابع توزیع fi باشد.در حالت های پیچیده تری مانند سری های زمانی ، فرض مستقل بودن متغیرهای تصادفی می تواند راهگشا باشد.

براورد درست نمایی بیشته در کنار براورد بیزی با شرط داشتن یک توزیع یکنواخت بر روی پارامترها استفاده می شود. در واقع هرچه براورد موخره بیشینه شود، احتمال پارامتر θمشروط به داده های x۱، …، xn افزایش می یابد.

که در آن  اتوزیع مقدم برای پارامتر θ است که در آن احتمال متوسط داده ها برروی همه پارامترها ست.از آنجا که مخرج مستقل از θاست ، تخمینگر بیزی ار بیشینه کردن رابطه بدست می آید. علاوه بر این فرض اگر در نظر بگیریم که احتمال مقدم توزیع یکتواخت دارد، تخمینگر بیزی از بیشینه کردن تابع درست نمایی بیشتر فرض کنیم که قبل از  یک توزیع یکنواخت از بیزی برآورد به دست آمده است توسط به حداکثر رساندن احتمال تابع  بدست می آید. بنابراین تخمینگر بیزی، براورد درست نمایی بیشینه را با در نظر گرفتن توزیع مقدم یکنواخت همراهی می کند.

ویژگی ها[ویرایش]

درست‌نمایی بیشینه یک براوردگر اکسترمم بنا شده بر تابع هدف زیر می‌باشد

و مشابه نمونه‌ای اش درست‌نمایی لگاریتمی میانگین ، می‌باشد. مقدار انتظاری اینجا متناظر با چگالی صحیح f(·|θ۰) محاسبه شود.

براوردگر درست‌نمایی بیشینه اساساً هیچگونه ویژگی‌های بهینه برای نمونه‌های متناهی ندارد. با این حال این روش مشابه دیگر روش های تخمین ، برای بیان بسیاری از مسایل دارای ویژگی‌های مجانبی جالبی می‌باشند که عبارتند از:

سازگاری[ویرایش]

تحت شرایط مشخص شده در زیر ، براورد درست نمایی بیشینه سازگار است. اصولاً سازگاری به این معناست که با داشتن تعداد نمونه مشاهدات به اندازه کافی زیاد، می توان مقدار را با دقت دلخواه پیدا کرد.به زبان ریاضی به این معنا است که اگر تعداد مشاهدات n به سمت بینهایت میل کند، در احتمال به مقدار واقعی اش همگرا می شود.

برای بیان سازگاری شروط ریز کافی است :

  • شناسایی مدل

به عبارت دیگر مقادیر مختلف θ منتاظر با توزیع های مختلف در مدل است. اگر این شرط برقرار نباشد ، آنگاه وجود دارد که و هردو مرتبط با یک توزیع از داده مشاهده شده می باشند.در اینصورت قادر به تمایط میان این دو پارامتر نخواهیم بود حتی اگر تعداد نمونه های مشاهده شده محدود باشد. در این حالت پارامترها به صورت مشاهده ای هم ارزند.

شرط شناسایی برای براورد کننده درست نمایی بیشینه شرط لازم است. وقتی این شرط برقرار است تابع درست نمایی حدی یک مقدار بیشینه سراسری خواهد داشت.

  • فشردگی

فضای پارامترهای مدل فشرده ایت.

شرط شناسایی بیانگر این بود که لگاریتم درست نمایی یک مقدار بیشینه سراسری دارد. فشردگی بیانگر این است که درست نمایی نمی‌تواند با شروع از یک نقطه دلخواه به مقدار بیشینه نزدیک شود.

Compactness.png

فشردگی صرفاً یک شرط کافی است و شرط لازم نیست.فشردگی می تواند با شروط دیگری از جمله شروط زیر جایگزین شود :

- فرورفتگی ها در تابع لگاریتم درست نمایی و فشردگی آنها نسبت به مجموعه سطح تابع لگاریتم درست نمایی بالاتر باشد ، یا

- وجود همسایگی فشرده N برای بطوریکه خارج از همسایگی ، تابع لگاریتم درست نمایی به اندازه ε>0 از بیشینه مقدار ، کمتر باشد.

  • پیوستگی

تابع نسبت به θ برای تقریباً همه مقادیر x پیوسته باشد.

پیوستگی در اینجا می تواند با شرط ضعیف تر نیمه پیوستگی جایگزین شود.

  • تسلط

با توجه به توزیع ، وجود دارد که  :

for all

طبق قانون اعداد بزرگ ، با تلفیق شرط تسلط و پیوستگی برای لگاریتم درست نمایی داریم :

شرط تسلط می تواند در مشاهدات متغیرهای تصادفی مستقل با توزیع یکسان استفاده شود . در مشاهده های غیز مستقل با توزیع متفاوت ، همگرایی یکنواخت در احتمال را می توان با نشان دادن اینکه دنباله یک فرایند پیوسته - مساوی تصادفی است، بدست آورد.

نرمال مجانبی[ویرایش]

در بسیاری از موارد ، پارامترهای درست نمایی بیشینه ، نرمال مجانبی را تخمین می زنند که برابر است با مجموعه پارامترهای صحیح و واقعی و خطای تصادفی که تقریباً نرمال است (البته با این فرض که داده ها کافی باشد)، و خطا با نرخ کاهش می یابد. برای اینکه این ویژگی برقرار باشد لازم است که برآوردکننده متحمل موضوعات زیر نباشد :

برآورد مرزی[ویرایش]

گاهی براورد درست نمایی بیشینه در کران مجموعه پارامترهای ممکن نهفته است یا درست نمایی بزرگ و بزرگتر می شود تا پارامترها به کران نزدیک شوند.تئوری مجانب استاندارد نیاز به این فرض دارد که پارامترهای واقعی دورتر از مرزها و کران ها قرار دارد.اگر داده های کافی داشته باشیم، براورد درست نمایی بیشینه از مرز دور نگه داشته می شود.ولی با تعداد نمونه های کمتر ، براورد به مرزها می رسد. در این موارد تئوری مجانبی تقریب کاربردی و درستی نمی‌دهد.مثالها در این موضوع مدل های واریانس مولفه ای هستند که هر مولفه دارای واریانس است که .

داده های مرزی وابسته یه پارامتر[ویرایش]

برای کاربردی کردن تئوری با یک روش ساده ، مجموعه ای از داده ها با احتمال مثبت را در نظر می گیریم که مستقل از پارامتر باشد. مثال ساده ای که وابستگی به پارامتر ها در آن برقرار باشد تخمین زدن θ از مجموعه ای مشاهدات مستقل با توزیع یکسان مانند توزیع یکنواخت در بازه است.برای براورد بازه هایی از θ را هدف می گیریم که در آن θ کمتر از مقدار بزرگترین مشاهده نباشد.چرا که بازه فشرده نیست ، مقدار بیشینه برای تابع درست نمایی وجود ندارد.برای هر تخمینی از θ تخمین بزرگتری وجود دارد که درست نمایی بزرگتری دارد. به عکس، بازه شامل نقطه نهایی θ است و فشرده است.در این موارد براورد درست نمایی بیشینه وجود دارد که بایاس است.به صورت مجانبی ، براورد کننده درست نمایی بیشینه توزیع نرمال ندارد.

پارامترهای مزاحم[ویرایش]

برای براورد درست نمایی بیشینه ، یک مدل ممکن است پارامترهای مزاحم داشته باشد.برای برقراری رفتار مجانبی، تعداد اینگونه پارامترها نباید با تعداد مشاهدات(سایز داده) افزایش یابد. یک مثال شناخته شده از این مورد وقتی است که مشاهدات به صورت جفتی رخ دهد که مشاهدات در هر جفت میانگین ها مجزا و مجهول دارند ولیکن مستقل و دارای توزیع نرمال با یک واریانس مشترک هستند.بنابراین برای تعداد N مشاهده ، تعداد پارامترها 2N+1 خواهد بود. همانطور که می دانیم براورد درست نمایی بیشینه برای واریانس به مقدار واقعی آن همگرا نمی‌شود.

افزایش اطلاعات[ویرایش]

وقتی شرط مشاهده های مستقل با توزیع یکسان برقرار نباشد ، برای برقراری مجانب، نیازمندی اساسی این است که اطلاعات در داده ها با افزایش سایز نمونه ها به صورت بینهایت افزایش یابد.این نیازمندی در شرایطی که وابستگی بین داده ها وجود داشته باشد و مشاهدات جدید مستقل باعث افزایش خطای مشاهدات شود ، ارضا نمی‌شود.

از جمله شرایطی که این رفتار را تضمین می کند می توان به موارد زیر اشاره کرد:

  1. مشتق مرتبه اول و دوم تابع لگاریتمی درست نمایی وجود داشته باشد
  2. ماتریس اطلاعات فیشر ماتریس وارون باشد
  3. ماتریس اطلاعات فیشر به عنوان یک تابع با پارامتر θ پیوسته باشد
  4. براورد درست نمایی بیشینه سازگار باشد.

فرض کنید که شرایط سازگار بودن براورد درست نمایی بیشینه برقرار باشد و

  1. و برای همسایگی N از از دو طرف پیوسته و مشتق پذیر باشد
  2. و
  3. وجود داشته باشد و عیر سینگولار باشد.

در اینصورت براورد درست نمایی بیشینه به صورت مجانبی از توزیع نرمال پیروی می کند.

.

تغییر ناپذیری کاربردی[ویرایش]

براورد کننده درست نمایی بیشینه مقادیری برای پارامتر انتخاب می کند که منجر به بزرگترین مقدارممکن برای احتمال یک داده مشاهده شود.اگر پارامتر شامل تعدادی مولفه باشد ، آنگاه براورد کننده های درست نمایی بیشینه متقاوت برای آنها تعریف می کنیم. اگر براورد درست نمایی بیشینه برای θ باشد و اگر تابع انتقال دلخواه θ باشد، آنگاه براورد درست تمایی بیشینه برای از تعریف زیر بدست می آید:

که تابع درست‌نمایی را بیشینه می کند:

همچنین براورد درست نمایی بیشینه نسبت به انتقال داده ها تغییر ناپذیر است.اگر که یک به یک باشد و وابسته یه پارامتری که قرار است براورد شود نباشد، آنگاه تایع چگالی در رابطه زیر صدق می کند :

تابع درست نمایی برای X و Y صرفاً در یک فاکتور تفاوت دارد که وابسته به پارامترهای مدل نیست.

برای مثال ، پارامترهای براورد درست نمایی بیشینه ی توزیع لگاریتم درست نمایی همان پارامترهای توزیع نرمال است که به لگاریتم داده ها فیت شده است.

ویژگی های مرتبه بالاتر[ویرایش]

بر طبق مجانب استاندارد، براوردکننده درست نمایی بیشینه باید ببه کران پایین کرامر-رائو برسد. بنابراین :

که I ماتریس اطلاعات فیشر است:

به طور خاص ، این به این معناست که بایاس براورد کننده درست نمایی بیشینه برابر با صفر تا حداکثر مرتبه است. وقتی عبارت مرتبه های بالاتر برای توسعه توزیع این براورد کننده را در نظر می گیریم ، به این نتیجه می رسیم که یک بایاس از مرتبه دارد.بایاس برابر است با  :

که براساس قرارداد جمع‌زنی اینشتین بر روی اندیس های تکرار شونده ، یعنی j,k -امین مولفه وارون ماتریس اطلاعات فیشر ، و

با استفاده از این فرمول ها می توان بایاس مرتبه دوم براورد کننده درست نمایی بیشینه را تخمین زد و هر بار با استفاده از بایاس آن را اصلاح کرد:

.

مثال[ویرایش]

توزیع یکنواخت گسسته[ویرایش]

به زودی

توزیع گسسته ، فضای نمونه متناهی[ویرایش]

فرض کنید کسی می خواهد مشخص کند که یک سکه چگونه پشت یا رو می آید ( با چه احتمالاتی ) فرض کنید احتمال رو آمدن P باشد . هدف تعیین P است .

فرض کنید سکه ۸۰ بار پرتاب شده باشد ، نمونه ممکن است چیزی شبیه این باشد : x۱ = H، x۲ = T ، ...، x۸۰ = T

احتمال پشت آمدن ۱ + p- است . فرض کنید نتیجه ۴۹ رو و ۳۱ پشت باشد و فرض کنید سکه از یک جعبه برداشته شود : یکی که احتمال رو آمدنش ۱/۳ است ، یکی که احتمال رو آمدنش ۱/۲ است و دیگری که احتمال رو آمدنش ۲/۳ است . بر چسب سکه ها گم شده است . با استفاده از این روش می توان سکه ی با بیشترین احتمال رو آمدن را پیدا کرد . داریم :

توزیع گسسته ، فضای نمونه پیوسته[ویرایش]

حالا فرض کنید که فقط یک سکه داریم که احتمال آن می تواند بین صفر و یک باشد . برای بیشینه کردن تابع بیشترین بخت داریم :

و بیشینه کردن برای تمام مقادیر ممکن احتمال بین صفر و یک است .

likelihood function for proportion value of a binomial process (n = 10)

یک راه برای بیشینه کردن این تابع مشتق گیری نسبت به p و صفر قرار دادن آن است .

/ که دارای جواب p=0 و p=1 و p=49/۸۰ است . جوابی که بخت را بیشینه میکند p=49/۸۰ است . بنابراین بیشترین احتمال برای ۴۹/۸۰ است .

توزیع پیوسته ، فضای نمونه پیوسته[ویرایش]

برای توزیع نرمال که تابع چگالی احتمال آن به صورت زیر است  :

تابع چگالی احتمال n متغیر تصادفی نرمال مستقل با توزیع یکسان به صورت زیر تعریف می شود :

به عبارت دیگر  :

که در آن میانگین نمونه ای است.

توزیع نرمال دارای دو پارامتر است : بنابراین درست نمایی را بر روی هر دو پارامتر به صورت همزمان و یا در صورت امکان به صورت تک تک بیشینه می کنیم. از آنجا که تابع لگاریتم یک تابع پیوسته اکیداً صعودی است ، مقداری که درست نمایی را ماکزیمم می کند ، لگاریتم آن را هم ماکزیمم می کند. تابع لگاریتم درست نمایی را می توان به صورت زیر نوشت :

مشتق لگاریتم درست نمایی را محاسبه می کنیم و آن را صفر قرار می دهیم :

که با عبارت زیر حل می شود :

که در واقع بیشینه تابع است چرا که صرفاً یک اکسترمم در μ وجود دارد و مشتق دوم اکیداً کمتر از صفر است. بنابراین امید آن برابر است با پارامتر μ .

که به این معنا است که براورد کننده درست نمایی بیشینه بایاس نشده است.

علاوه بر این مشتق لگاریتم درست نمایی را نسبت به σ گرفته و مساوی صفر قرار می دهیم :

که جواب آن به صورت زیر است :

با قراردادن تخمین داریم :

برای محاسبه امید ، آن را به فرم استاندارد با میانگین صفر بازنویسی می کنیم . بنابراین داریم :

با ساده کردن رابطه بالا با استفاده از دو رابطه و خواهیم داشت :

که به این معنا است که براورد کننده بایاس و سازگار است.

می توان گفت براورد کننده درست نمایی بیشینه برای برابر است با  :

در این مورد ، براوردهای درست نمایی بیشینه می توانند به صورت تک به تک و در حالت کلی ممکن است این براورد ها به صورت همزمان بدست آیند.

فرم نرمال لگاریتمی درست نمایی در حالت بیشینه خود به صورت زیر است :

می توان نشان داد که لگاریتم درست نمایی بیشینه در حالت کلی برا ی کمترین مربعات و برای کمترین مربعات غیر خطی یکی است . این موضوع می تواند برای تخمین های مبتنی بر درست نمایی بازه اطمینان و منطقه اطمینان استفاده شود که در صالت کلی بسیار دقیق تر از آاستفاده از نرمال مجانبی که در بالا بحث شد، است.

متغیرهای غیرمستقل[ویرایش]

در برخی موارد متغیر ها همبسته هستند ولی مستقل نیستند.دو متغیر تصادفی X و Y مستقل هستند اگر و فقط اگر تابع چگالی احتمال مشترک آن دو ، برابر با حاصلضرب تابع چگالی احتمال هر یک باشد.یعنی :

فرض کنید بردار تصادفی n بعدی از توزیع گوسی داشته باشیم که هر کدام از متغیرهای تصادفی دارای میانگین به صورت باشند.همچنین ماتریس کوواریانس را هم با نشان می دهیم.

تابع چگالی احتمال مشترک برای n متغیر تصادفی را با رابطه زیر نشان می دهیم:

در حالت دو متغیره تابع چگالی احتمال مشترک به صورت زیر است :

در این مورد و در دیگر موارد که تایع چگالی مشترک وجود داشته باشد ، تابع درست نمایی که که در بالاتر و در بخش اصول تعریف شد از این چگالی استفاده می کند.

روال های تکراری[ویرایش]

مسئله ای را در نظر بگیرید که باید در آن هم حالت(وضعیت)های و هم پارامترهایی مانند تخمین زده شود.روال های تکراری مانند الگوریتم امید ریاضی–بیشینه کردن روش حل براورد پارامترها و وضعیت ها است.

برای مثال ، فرض کنید که n نمونه از وضعیت ها که میانگین نمونه آن است با روشی مانند فیلتر کالمان و با استفاده از براورد واریانس تخمین زده شده .سپس واریانس بعدی از محاسبه براورد درست نمایی بیشینه و به صورت تکراری بدست می آید :

همگرایی براورد درست نمایی بیشینه در روش های فیلترینگ و هموار سازی در مقالات متعددی مورد مطالعه قرار گرفته شده است.