مدل‌های خطا در متغیرها

از ویکی‌پدیا، دانشنامهٔ آزاد

در آمار، مدل‌های خطا در متغیرها یا مدل‌های خطای اندازه‌گیری، مدل‌های رگرسیونی هستند که خطاهای اندازه‌گیری را در متغیرهای مستقل می‌توانند محاسبه کنند. در مقابل، مدل‌های رگرسیون معیار فرض می‌کنند که آن رگرسیورها دقیقاً اندازه‌گیری شده‌اند یا بدون خطا مشاهده شده‌اند. به این ترتیب، این مدل‌ها تنها خطاهای موجود در متغیرهای وابسته یا پاسخ‌ها را در نظر می‌گیرند.[نیازمند منبع]

در مواردی که برخی از رگرسیون‌ها با خطا اندازه‌گیری شده‌اند، تخمین بر پایه فرض استاندارد منجر به تخمین‌های متناقض می‌شود، به این معنی که تخمین پارامترها حتی در نمونه‌های بسیار بزرگ به مقادیر واقعی تمایل ندارند. برای رگرسیون خطی ساده، این اثر یک ضریب دست کم برآورد است، که به عنوان سوگیری تضعیف شناخته می‌شود. در مدل‌های غیر خطی، جهت بایاس احتمالاً پیچیده‌تر است.[۱][۲][۳]

مثال انگیزشی[ویرایش]

یک مدل رگرسیون خطی ساده را در نظر بگیرید:

جایی که نشان دهنده واپسگرای واقعی اما مشاهده نشده‌است. به جای این مقدار را با یک خطا مشاهده می‌کنیم:

جایی که خطای اندازه‌گیری مستقل از مقدار واقعی فرض می‌شود .

اگر به سادگی بر روی پسرفت کند، سپس برآورد کننده ضریب شیب برابر است با:

که به عنوان حجم نمونه همگرا می‌شود بدون محدودیت افزایش پیدا می‌کند:

این در تضاد با اثر «واقعی» است ، با استفاده از ,:

واریانس‌ها غیر منفی هستند، به طوری که در حد برآورد شده‌است کوچکتر از ، اثری که آماردانان آن را تضعیف یا رقیق شدن رگرسیون می‌نامند.[۴] بنابراین برآوردگر حداقل مربعات ساده یک برآوردگر ناسازگار برای . با این حال، تخمین‌گر ثابت پارامتر مورد نیاز برای بهترین پیش‌بینی‌کننده خطی است با توجه به مشاهده شده  : در برخی از برنامه‌ها ممکن است این چیزی باشد که مورد نیاز است، نه برآورد ضریب رگرسیون «واقعی» ، اگرچه فرض می‌شود که واریانس خطاها در تخمین و پیش‌بینی یکسان است. این به‌طور مستقیم از نتیجه ای که بلافاصله در بالا نقل شد و این واقعیت که ضریب رگرسیون مربوط به به واقعی مشاهده شده‌است s، در یک رگرسیون خطی ساده، توسط فرمول زیر داده می‌شود:

این ضریب است، به جای ، که برای ساختن یک پیش‌بینی کننده مورد نیاز است بر اساس مشاهده شده که در معرض نویز است.

می توان استدلال کرد که تقریباً تمام مجموعه داده های موجود حاوی خطاهایی با ماهیت و بزرگی متفاوت هستند، به طوری که سوگیری تضعیف بسیار مکرر است (اگرچه در رگرسیون چند متغیره جهت سوگیری مبهم است [۵] ). جری هاسمن این را قانون آهنین اقتصاد سنجی می داند: "میزان تخمین معمولاً کمتر از حد انتظار است." [۶]

مشخصات[ویرایش]


معمولاً مدل‌های خطای اندازه‌گیری با استفاده از رویکرد متغیرهای پنهان توصیف می‌شوند. اگر متغیر پاسخ است و مقادیر مشاهده شده از رگرسیون ها، پس فرض می شود که برخی از متغیرهای پنهان وجود دارد و که از رابطه عملکردی "واقعی" مدل پیروی می کنند ، و به نوعی که کمیت های مشاهده شده مشاهدات پر سر و صدا آنها باشد:

جایی که پارامتر مدل است و آن دسته از رگرسیون هایی هستند که فرض می شود بدون خطا هستند (به عنوان مثال زمانی که رگرسیون خطی حاوی یک برس است، رگرسیونی که با ثابت مطابقت دارد قطعاً "خطای اندازه گیری" ندارد). بسته به مشخصات، این رگرسیون های بدون خطا ممکن است به طور سوا بررسی شوند یا نشوند. در مورد دوم به سادگی فرض می شود که ورودی های متناظر در ماتریس واریانس از 'ها صفر هستند.

متغیرها ، ، همه مشاهده می شوند ، به این معنی که آمارگیر دارای مجموعه ای از داده ها است واحدهای آماری که فرآیند تولید داده شرح داده شده در بالا را دنبال می کنند. متغیرهای پنهان ، ، ، و با این حال رعایت نمی شوند.

این مشخصات تمام مدل‌های خطا در متغیرهای موجود را در بر نمی‌گیرد. به عنوان مثال در برخی از آنها عملکرد ممکن است ناپارامتریک یا نیمه پارامتریک باشد. سایر رویکردها رابطه بین و به عنوان توزیعی به جای عملکردی، یعنی آنها این را فرض می کنند مشروط بر از توزیع خاصی (معمولاً پارامتریک) پیروی می کند.

منابع[ویرایش]

  1. Griliches, Zvi; Ringstad, Vidar (1970). "Errors-in-the-variables bias in nonlinear contexts". Econometrica. 38 (2): 368–370. doi:10.2307/1913020. JSTOR 1913020.
  2. Chesher, Andrew (1991). "The effect of measurement error". Biometrika. 78 (3): 451–462. doi:10.1093/biomet/78.3.451. JSTOR 2337015.
  3. Carroll, Raymond J.; Ruppert, David; Stefanski, Leonard A.; Crainiceanu, Ciprian (2006). Measurement Error in Nonlinear Models: A Modern Perspective (Second ed.). ISBN 978-1-58488-633-4.
  4. Greene, William H. (2003). Econometric Analysis (5th ed.). New Jersey: Prentice Hall. Chapter 5.6.1. ISBN 978-0-13-066189-0.
  5. {{cite book}}: Empty citation (help)
  6. Hausman, Jerry A. (2001). "Mismeasured variables in econometric analysis: problems from the right and problems from the left". Journal of Economic Perspectives. 15 (4): 57–67 [p. 58]. doi:10.1257/jep.15.4.57. JSTOR 2696516.