نیکویی برازش

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

پس از تخمین یک مدل خطی خاص، سوالی که مطرح می شود این است که : خط رگرسیونی تخمین زده شده چه میزان با مشاهدات واقعی تطابق دارد؟ یک معیار سنجش مناسب برای نیکویی برازش، نسبت واریانس نمونه ای y است که بوسیله ی مدل توضیح داده می شود. این متغیر \R^2\, نامیده شده و بصورت زیر تعریف می شود : رابطه (۱-۱)\R^2\,=\dfrac {\hat V (\hat y_i)}{\hat V(y_i)}=\dfrac {1/(N-1)\sum_{i=1}^N (\hat y_i-\bar y)^2}{1/(N-1)\sum_{i=1}^N(y_i-\bar y)^2}, که در این رابطه \hat y_i = x_i \ b  است و \bar y =(1/N) \sum  y_i بیانگر میانگین نمونه ای y_i می باشد. توجه داشته باشید که \bar{y} مساوی میانگین نمونه ای \hat y_i\, است .از شرط مرتبه اول داریم :\sum_{i=1}^N e_i \ x_{ik}= 0,k=1,...,K  در نتیجه می توانیم y_i را به صورت زیر تعریف نماییم : y_i = \hat y_i\  + e_i, که در آن \sum e_i \hat y_i =0 است. در بسیاری از مدل های مشابه که شامل intercept termهستند رابطه زیر برقرار است : رابطه (2-1)\hat V(y_i)= \hat V(\hat y_i)+ \hat V(e_i) , که \hat V(e_i)= s^2, است.با استفاده از این رابطه می توان R^2 را به صورت زیر باز نویسی کرد : رابطه(۳-۱)\R^2\,=1-\dfrac {\hat V(e_i)}{\hat V(y_i)}=1-\dfrac {1/(N-1)\sum_{i=1}^N e_i^2}{1/(N-1)\sum_{i=1}^N (y_i-\bar y)^2} فوق نشان می دهد که واریانس نمونه ای y_i را می توان به صورت حاصل جمع واریانس های نمونه ای دو جزء متعامد تجزیه نمود : تخمین زن \hat y_iو e_i )residual) . بنابراین \R^2\, بیان می کند که چه نسبتی از تغییرات نمونه در y_i توسط مدل توضیح داده می شود. اگر مدل مورد مطالعه شامل intercept term باشد دو عبارت فوق برای تعیین \R^2\, معادلند.علاوه بر این در این مورد می توان نشان داد که مقدار\R^2\, همواره بین صفر و یک قرار دارد.تنها اگر تمام e_i=0 باشند\R^2\, مساوی یک خواهد بود و مقدار صفر \R^2\, نشان می دهد که مدل به جزمیانگین نمونه ای y_i هیچ چیز دیگری را توضیح نمی دهد. در یک مورد استثنایی که مدل شامل intercept term نیست دو عبارت مطرح شده برای \R^2\, معادل نیستند و این بدین دلیل است که رابطه ی (۲-۱)نقض می شود زیرا \sum_{i=1}^N e_iدیگر معادل صفر نمی باشد. در این وضعیت ممکن است مقدار \R^2\, محاسبه شده از رابطه ی(3-1) منفی گردد. یک روش اندازه گیری جایگزین که به طور معمول به وسیله ی نرم افزار ها مورد استفاده قرار می گیرد اگرintercept term وجود نداشته باشد uncentred \R^2است که طبق رابطه ی زیر تعریف می گردد و مقدار آن بزرگتر از \R^2, استاندارد است : رابطه (۴-۱) uncentred  \R^2 = \dfrac {\sum_{i=1}^N \hat y_i^2}{\sum_{i=1}^N \ y_i^2}= 1- \dfrac {\sum_{i=1}^N \ e_i^2}{\sum_{i=1}^N \ y_i^2} از آنجا که\R^2\, تغییرات توضیح داده شده درy_i را توضیح می دهد نسبت به تغییر این متغیر حساس است . بنابراین در مدلهایی که مصرف را توضیح می دهند، تغییرات در مصرف یا رشد مصرف الزاما توسط مقادیر \R^2\, شان قابل مقایسه با هم نمی باشند.به عنوان مثال تغییر در مصرف کل برای یک کشور مورد نظر معمولا آسان تر از توضیح تغییرات cross-sectional مصرف در سطح خانوار هاست.درنتیجه معیار قطعی برای اینکه یک مقدار \R^2\, کم یا زیاد تلقی شود وجود نداردمثلا مقدار ۰.۲ ممکن است در کارکرد خاص بزرگ و در سایر موارد کم تلقی شود و حتی مقدار ۰.۹۵ ممکن است در یک مورد خاص کم به شمار آید گاهی اوقات \R^2\, به عنوان معیاری برای کیفیت مدل آماری تفسیر می شود که در این حالت چیزی به جز کیفیت تقریب خطی را اندازه گیری نمی نماید هنگامی که رویکردOLS برای بدست آوردن بهترین تقریب خطی توسعه داده شود، صرف نظر از درستی مدل و اعتبار فرضیاتش، تخمین مدل خطی به وسیله ی OLS بهترین \R^2\, ممکن را بدست می دهد. هر روش تخمین دیگر اگرچه دارای تخمین زن با مشخصات آماری بهتر تحت فرضیاتش باشد، منجر به \R^2\, کمتر ی خواهد شد.هنگامی که مدل توسط OLS تخمین زده نشود دو رابطه ی (۱-۱) و (۲-۱)معادل نیستند و روشن نیست\R^2\, چگونه باید تعریف شود . برای استفاده های بعدی ما تعریف جایگزینی برای \R^2\, ارائه می نماییم که برای OLS معادل روابط(۱-۱) و (۲-۱)و برای هر تخمین زن دیگری بین صفر و یک خواهد بود. رابطه(۵-۱) \R^2= corr^2(y_i,\hat y_i)=\dfrac {(\sum (y_i-\bar y)(\hat y_i-\bar y))^2 }{(\sum(y_i-\bar y)^2)(\sum(\hat y_i -\bar y)^2)} که بیانگر مجذور ضریب همبستگی بین مقدار واقعی و fitted value هاست .در نتیجه\R^2\, مهم ترین جنبه از نتایج تخمین ما به شمار نمی آید.مشکل دیگر \R^2\, این است که مقدار ان با افزایش تعداد متغیر های توضیح دهنده کاهش نمی یابد.یک راه معمول برای حل این مشکل تصحیح واریانس تخمین زده شده برای درجات آزادی است. این امر adjusted \R^2\, یا \bar {R^2} را نتیجه می دهد که طبق رابطه ی زیر تعریف می شود : رابطه(۶-۱) \bar {R^2}=1-\dfrac{1/(N-K)\sum_{i=1}^N e_i^2 }{1/(N-1)\sum_{i=1}^N (y_i-\bar y)^2} این روش محاسبه ی نیکویی برازش مقداری جریمه برای افزایش تعداد متغیر های توضیح دهنده در مدل در نظر می گیرد و بنابر این هنگامی که متغیر های توضیح دهنده به مدل اضافه می شوند افزایش نخواهند یافت. در حقیقت آن ممکن است با اضافه شدن یک متغیر به جمع متغیر های توضیح دهنده کاهش یابد. توجه کنید که در بسیاری از موارد \bar {R^2} ممکن است مقداری منفی باشد و همچنین مقدار آن کوچکتر از \R^2\, خواهد بود مگر اینکه مدل تنها شامل جزء ثابت بوده و هر دو مقدار مساوی صفر گردند.

منابع[ویرایش]

۲۰۰۴(A GUIDE TO ECONOMETRICS(VERBEEK