متغیر ابزاری

از ویکی‌پدیا، دانشنامهٔ آزاد
متغیر ابزاری

متغیر ابزاری (به انگلیسی: Instrumental variable) برای تخمین اثر تصادفی تعدادی از متغیرهای x روی متغیر دیگری مثل y, یک ابزار متغیر سومی است مانند z است که y را فقط از طریق اثر خودش روی x تحت تأثیر قرار می‌دهد.

برای مثال فرض کنید که یک پژوهشگر تمایل دارد اثر تصادفی سیگار کشیدن را روی سلامت عمومی بررسی می‌کند.[۱] همبستگی بین سلامتی و سیگار کشیدن نشان می‌دهد که اثر تصادفی سیگار کشیدن روی سلامتی ضعیف نیست. دیگر متغیرها ممکن است هر دو تندرستی و سیگار کشیدن را تحت تأثیر قرار دهد. کنترل کردن آزمایش‌ها روی سیگار کشیدن در جمعیت عمومی بسیار پرهزینه است. محقق ممکن است که برای تخمین اثر تصادفی سیگار کشیدن روی سلامتی از طریق داده‌های مشاهده شده با استفاده از نرخ مالیات بر روی محصولات توتون به‌عنوان ابزاری برای سیگار کشیدن در یک رگرسیون سلامتی تخمین بزند.

ازآنجایی که مالیات بر توتون روی سیگار کشیدن اثرگذار است بنابراین روی سلامتی نیز اثر دارد، همبستگی بین مالیات بر توتون و سلامتی نشان می‌دهد که عوامل مؤثر بر سیگار کشیدن تغییر می‌یابد یک تخمین از اثر سیگار کشیدن روی سلامتی ممکن است از طریق همبستگی بین پارامترهای سیگار کشیدن و مالیات ایجاد شده باشد.

کاربردها[ویرایش]

معمولاٌ روش IV برای تخمین اثر تصادفی متغیرهایی که در آزمایش‌های کنترل شده در دسترس نیستند استفاده می‌شود که اعتبار تخمین‌ها اشاره‌ای بر مجموعه ابزارهای مناسب است. اغلب ابزارهای مناسب از طریق تغییرات سیاسی ایجاد شده‌اند، برای مثال لغو برنامه‌های کمک هزینه تحصیلی و اعطای بورس فدرال به دانشجویان ممکن است اثرش در کمک به درآمد تعدادی از دانشجویان آشکار شود. آزمایش‌های طبیعی و نیمه‌طبیعی از انواع متفاوت به کار رفته‌اند برای مثال[۲]، که از شوک‌ها به منظور تععین اثرتغغیرات در رشد درآمدی شهروندان استفاده می‌کنند.[۳] مقاله‌ای در مورد تاریخچه و تکنیک‌های استفاده از متغیرهای ابزاری ارائه داده‌اند.

تخمین[ویرایش]

فرض کنید که داده‌ها از طریق یک فرآیند به شکل زیر تولید شده‌اند:

i شاخص مشاهدات , yi متغیر وابسته xi, یک متغیر مستغل و عنصر خطاست , β یک پارامتر اسکالر غیرقابل مشاهده‌است. پارامتر β اثر تصادفی ناشی ازتغغیر یک واحدا xi را روی yi نشان می‌دهد و هدف اقتصادسنجی برآورد β است برای ساده‌سازی فرض کنید که عناصر خطا واریانس همسانی دارند و با یکدیگر وابستگی ندارند.

فرض کنید مدل ما به صورت مذکور ارائه شده باشد برآوردکننده معمولی حداقل مربعات برای نمونه‌ای متشکل از T مشاهده به شکل زیر می‌باشد:

x, y و بردارهای ستونی با طول T هستند. x و با هم همبستگی ندارند در شرایط خاص امید ریاضی به شرط x صفر است و حد آن به سمت صفر می‌گراید بنابراین بدون تورش و سازگار است. زمانی که. X و با هم همبستگی داشته باشند برآوردگر OLS برای بردار β تورش دار و ناسازگار می‌شود در این مورد بهتر است از تخمین‌هایی برای پیش‌بینی ارزش y با استفاده از مقادیر x استفاده می‌کنیم اما این روش تخمین ثر تصادفی x روی y را بهبود نمی‌بخشد. متغیر ابزاری z با متغیر مستقل همبستگی دارد اما با جزء خطا همبستگی ندارد. با استفاده از روش گشتاوری و محاسبه امید ریاضی شرطی روی z برای پیدا کردن:

فرض می‌کنیم که دومین جزء سمت راست صفر است و β رابه دست می‌آوریم وگستره نتایج را در اصطلاح نمونه گشتاوری به دست می‌آوریم:

ازآنجایی که z و با هم همبستکی ندارند پس جزء آخر در نهایت به سمت صفر می‌گراید و یک تخمین‌زن سازگار ارائه می‌دهد. می‌توان از روش دیگری استفاده کرد که از طریق آن بتوان اثرات تصادفی x روی y را به‌طور سازگاری برآورد کرد رویکرد ما به یک مدل با ضریبی از متغیرهای توضیح دهنده تعمیم می‌یابد. فرض کنید که x یک ماتریسK T× برای متغیرهای توضیح دهنده‌ای است که از مشاهدات T روی K متغیر نتیجه می‌شوند که اگر فرض کنیم Z یک ماتریسK T×از ابزارهاست برآوردگر می‌تواند به صورت زیر نشان داده شود:

که این تخمین‌زن با یک تعمیم‌یافتگی چندمتغیری که در بالا ذکر شد سازگار است اگر ابزارها بیش از متغیرهای مستقل در معادله هدف باشند در این صورت یک ماتریس T×M داریم کهM>Kست که با استفاده از روش گشتاوری تعمیم یافته برآورد IV به صورت زیر است:

به طوری که . زمانی که تعداد ابزارها مساوی با تعداد متغیرهای مستقل در معادله هدف باشد در این صورت قسمت دوم عبارت بالا حذف می‌شود.

تفسیری از حداقل مربعات دومرحله‌ای[ویرایش]

یکی از روش‌هایی که می‌توانیم یرای محاسبه تخمین IV به کار می‌گیریم روش دومرحله‌ای حداقل مربعات 2SLS است. در مرحله اول هر یک از متغیرهای کمی برونزا در معادله هدف روی همه متغیرهای برونزا در مدل رگرس می‌شوند ومقدار پیش‌بینی شده از این رگرسیون به دست می‌آید: مرحله ۱: رگرس کردن هر کدام از ستون‌های X روی Z

()

و سپس ارزش پیش‌بینی شده را ذخیره می‌کنیم:

درمرحله دوم رگرسیون هدف به صورت معمول تخمین زده می‌شود وهر یک از متغیرهای برونزا با ارزش پیش‌بینی‌شده از اولین مرحله مدل جایگزین می‌شود. مرحله 2:Y را روی ارزش‌های پیش‌بینی شده از مرحله اول رگرس می‌کنیم:

برآورد β در بالا از لحاظ عددی با آنچه که در بالا تشریح شد یکسان است. در مرحله دوم ممکن است بین مربعات باقیمانده‌ها همبستگی کمی پدیدار شده باشد که باعث می‌شود برازش مدل در محاسبه ماتریس β درست باشد.

تعریف[ویرایش]

در رگرسیون متغیر ابزاری اگر ما چند رگرسور برونزا و چند ابزار و ضرایب مربوط به رگرسیون‌های برونزا که هستند را در نظر بگیریم گفته می‌شود: Exactly identified if m = k.
Overidentified if m > k.
Underidentified if m < k. پارامترها تعریف نشده‌اند اگر تعداد ابزارها کمتر از متغیرهای کمی‌باشند.

تحلیل‌های غیر پارامتریک[ویرایش]

زمانی که شکل معادله ساختاری ناشناخته است یک متغیر ابزاری Z هنوز می‌تواند از طریق معادلات تعریف شود:

که FوZ دو تابع دلخواه هستند وz مستقل از U است. بر خلاف مدل‌های خطی ارزیابی X,Y,Z برای تعیین میانگین اثرات تصادفی X روی Y مجاز نیست وACEراتعریف می‌کنیم به طوری که[۴]

قیدهای محکمی روی ACE قرار داده‌اند و بیان کرد ند که این می‌تواند اطلاعات ارزشمندی در مورد علامت و اندازه ACE ارائه دهد. برای تمام f,g محدودیت زیر که نا معادله ابزاری نا میده می‌شود باید برقرار باشد برای زمانی که z دو معادله بالا را ارضاء می‌کند:

تفسیری بر برآوردهای متغیر ابزاری[ویرایش]

اثرات تصادفی مورد نظر روی مشاهدات یکسان است و β ثابت است. موضوعات متفاوت به تغییرات رویه‌ای واکنش نشان می‌دهند. ممکن است که تأثیر تغییرات ناشی از یک واحد X بر روی Y در جامعه متفاوت با زیرجامعه باشد. برای مثال میانگین اثرات ناشی آموزش شغلی به گروهی که این آموزش را دریافت می‌کنند و گروهی که آن را دریافت نمی‌کنند متفاوت است7.

تخمین زن IV می‌تواند رویه میانگین تأثیرات موضعی LATE را بهبود می‌بخشد بیش از آنکه بتواند رویه میانگین تأثیرات ATE را بهبود می‌بخشد[۵] توضیح می‌دهد که تخمین خطی IV می‌تواند تحت شروط ضعیفی به عنوان میانگین وزنی از میانگین رویه تأثیرات موضعی باشد. به طوری که وزن‌ها به کشش رگرسور برونزا برای تغغیر در متغیرهای ابزاری بستگی دارد. این بدان معنی است تأثیر یک متغیر فقط برای زیر مجموعه‌ای متاثر از تغییرات مشاهدهشده در ابزارها آشکار شده‌است وزیر مجموعه‌ای که بیشترین واکنش را به تغییرات در ابزارها نشان می‌دهد بیشترین اثر را بر روی اندازه برآورد IV خواهد داشت.

مشکلات بالقوه[ویرایش]

به طور کلی اگر ابزارها با جزء خطا در معادله هدف همبستگی داشته باشند در این صورت تخمین‌های آن‌ها ناسازگار خواهد بود. مشکل دیگر مربوط به ابزارهای ضعیف است که پیش‌بینی خوبی ارائه نمی‌دهند. در این صورت مقادیر پیش‌بینی شده تا حد کمی متفاوت هستد. در نتیجه وقتی آن‌ها را در معادله دوم جایگزین می‌کنیم احتمال کمی وجود دارد که بتوان نتیجه نهایی را با موفقیت پیش‌بینی کنیم.

ویژگی‌های نمونه‌گیری و آزمون فرضیه[ویرایش]

زمانی که متغیرهای کمی برونزا باشند در این صورت می‌توانیم ویژگی‌های نمونه کوچک را می‌توان از تخمین زن OLS به‌طور مستقیم از طریق محاسبه گشتاورهای تخمین زن شرطی روی X به دست آوریم. زمانی که تعدادی از متغیرهای کمی برونزا هستند از تخمین متغیرهای ابزاری استفاده می‌شود وتفسیری که برای گشتاورها ی تخمینزن وجود دارد ساده نیست. به‌طور کلی تخمین زن متغیرهای ابزاری در صورتی که نمونه محدود نباشد دارای مجانب مطلوبی هستند که بر اساس تقریب مجانبی در توزیع نمونه‌گیری تخمین زن را به دست می‌آوریم. حتی زمانی که ابزارها با جزء خطا در معادله هدف همبستگی ندارند و ابزارها نیز ضعیف نیستند ممکن است خصوصیات تخمین زن متغیر ابزاری در یک نمونه کوچک ضعیف باشد. برای مثال اگر نمونه کوچک باشد در این صورت آرمون‌های آماری مربوط به نرمالیزه کردن با اختلال مواجه می‌شود وتخمین‌های به دست آمده با مقدار واقعی پارامترها متفاوت خواهد بود.[۶]

آزمون قدرت ابزار و محدودیت‌های بیش از حد تعیین شده[ویرایش]

قدرت ابزارها می‌تواند مستقیماٌ ارزیابی شود زیرا متغیرهای کمی برونزا وابزارها هر دو قابل مشاهده‌اند.[۷] یک قانون شست برای مدلهایی که یک رگرسور درونزا دارند استفاده از آماره F است. این فرض که ابزارها با جزء خطا در معادله هدف مرتبط نیستند در مدل‌های به‌طور دقیق تعریف شده قابل آزمون نیست. اگر مدل بیش از حد تعریف شده باشد در این صورت اطلاعاتی موجود است که می‌توان با استفاده از آن این فرض را آزمون کرد. که رایج‌ترین آزمون‌های مربوط به محدودیت‌های بیش از حد تعین شده Sargan test است که بر اساس مشاهداتی است که در آن باید باقیمانده‌ها با مجموعه متغیرهای برونزا هم بستگی نداشته باشند اگر ابزارها واقعاٌ برونزا باشند. آماره آزمون Sargan می‌تواند به صورت (تعداد مشاهدات ضرب در دترمینان ضرایب) که از رگرسیون OLS باقیمانده‌ها بر روی مجموعه‌ای از متغیرهای برونرا به دست می‌آید. این آماره مشابه چی اسکور با درجه آزادی m-k است. وتحت فرض صفر در آن ابزارها با جزء خطا هم بستگی ندارند.

منابع[ویرایش]

  1. Leigh, J.P. and M. Schembri (2004) Instrumental variables technique: cigarette price provided better estimate of effects of smoking on SF-12, Journal of Clinical Epidemiology 57(3), 284–293.
  2. Miguel, E. , Satyanath, S. and Sergenti, E. (2004) Economic shocks and civil conflict: An instrumental variable approach. Journal of Political Economy 112, 725–753.
  3. Angrist, J. and A. Krueger (2001) Instrumental variables and the search for identification: From supply and demand to natural experiments, Journal of Economic Perspectives, 15(4), 69–85.
  4. Balke, A. and Pearl, J. «Bounds on treatment effects from studies with imperfect compliance,» Journal of the American Statistical Association, 92(439):1172–1176, 1997.
  5. Imbens, G. and J. Angrist (1994) Identification and estimation of local average treatment effects, Econometrica 62, 467–476.
  6. Nelson, C.R. , and R. Startz (1990) Some further results on the small sample properties of the instrumental variable estimator. Econometrica, 58(4), 967–976.
  7. Stock, J., J. Wright, and M. Yogo (2002) A Survey of weak instruments and weak identification in Generalized Method of Moments, Journal of the American Statistical Association, 20(4), 518–29.
  • a b Pearl, J. Causality: Models, Reasoning, and Inference, Cambridge University Press, 2000
  • Heckman, J. (2008) Econometric causality. National Bureau of Economic Research working paper #13934.
  • Leigh, J.P. and M. Schembri (2004) Instrumental variables technique: cigarette price provided better estimate of effects of smoking on SF-12, Journal of Clinical Epidemiology 57(3), 284–293.
  • Balke, A. and Pearl, J. «Bounds on treatment effects from studies with imperfect compliance,» Journal of the American Statistical Association, 92(439):1172–1176, 1997.