عامل تورم واریانس

از ویکی‌پدیا، دانشنامهٔ آزاد

عامل تورم واریانس (Variance Inflation Factor) در مدل‌های رگرسیون خطی یکی از روش‌های تخمین پارامترهای مدل، روش حداقل مربعات می‌باشد. یکی از مسائل و مشکلاتی که می‌تواند این روش را به چالش بکشد، وجود پدیده‌ای به نام هم خطی (multicolinearity) می‌باشد. یکی از شیوه‌های تشخیص وجود هم خطی که کاربرد زیادی دارد، استفاده از عامل تورم واریانس می‌باشد. این عامل نشان می‌دهد که واریانس ضرایب تخمینی تا چه حد نسبت به حالتی که متغیرهای تخمینی، هم بستگی خطی ندارند، متورم شده‌است. برای درک اهمیت عامل تورم واریانس از دقت ضرایب تخمین زده شدهٔ رگرسیون با روش حداقل مربعات که توسط واریانس آن‌ها اندازه‌گیری می‌شود، شروع می‌کنیم. مدل رگرسیون Y=X’b+e را در نظر بگیرید: می‌دانیم ماتریس واریانس-کوواریانس ضرایب تخمینی رگرسیون از رابطه زیر حاصل می‌شود:

به منظور اندازه‌گیری تأثیر هم خطی بودن، استفاده از مدل رگرسیون استاندارد شده می‌تواند مفید واقع شود. این مدل با تبدیل متغیرها به وسیله تبدیل هم بستگی حاصل می‌شود. وقتی مرل رگرسیون استاندارد شده برازانیده می‌شود، ضرایب تخمینی رگرسیون () از طریق رابطه زیر به ضرایب قبل از تبدیل، مربوط می‌شوند:

ماتریس واریانس-کوواریانس ضرایب رگرسیون استاندارد شده تخمینی، از رابطه (۱) حاصل می‌شود که در آن، با استفاده از رابطه که بیان می‌کند ماتریس برای متغیرهای تبدیل شده، ماتریس همبستکی متغیرهای مستقل X می‌باشد، به دست خواهیم آورد:

که در این رابطه ماتریس ضریب هم بستگی بین هر جفت از متغیرها است و واریانس عنصر خطا در مدل تبدیل شده می‌باشد. توجه داشته باشید که از رابطه (۳) واریانس ، با قرار دادن به جای عنصر k-ام روی قطر ماتریس ، به شکل زیر حاصل می‌شود:

عنصر قطری ، عامل تورم واریانس برای نامیده می‌شود. می‌توان نشان داد که عامل تورم واریانس از رابطه زیر حاصل می‌شود:

که در این رابطه ضریب تعیین مدلی است که در آن متغیر مستقل روی سایر متغیرهای مستقل مدل رگرس شده‌است. بنابراین داریم:

در صورتی که یا به عبارتی دیگر به صورت خطی رابطه‌ای با سایر متغیرهای مستقل مدل نداشه باشد، برابر یک خواهد بود. هنگامی که ، بزرگ تر از یک خواهد بود که نشان می‌دهد واریانس به دلیل وجود همبستگی بین متغیرهای مستقل، متورم شده‌است و مقدار آن افزایش پیدا کرده‌است. هنگامی که یک متغیر مستقل وابستگی خطی کامل با سایر متغیرهای مستقل مدل داشته باشد، ضریب تعیین مرتبط با آن برابر 1 خواهد شد و در نتیجه عامل تورم واریانس به سمت بی نهایت میل خواهد کرد و از آن می‌توان نتیجه گرفت که واریانس نیز بی‌نهایت خواهد بود. مقدار عامل تورم واریانس برای متغیرهای مستقل، اغلب به عنوان یک شاخص برای اندازه‌گیری شدت هم خطی بودن در مدل استفاده می‌شود. اگر بیشترین مقدار عامل تورم واریانس بزرگتر از ۱۰ باشد معمولاً به نشانه این مسئله در نظر گرفته می‌شود که هم خطی موجود در مدل، اثر نامطلوبی بر تخمین گرهای روش حداقل مربعات دارد.

میانگین مقادیر عامل تورم واریانس نیز اطلاعات مفیدی را به دست می‌دهد. از این جهت که ضرایب تخمینی رگرسیون استاندارد شده تا چه اندازه از میزان واقعی انحراف دارند. می‌توان نشان داد که مقدار مورد انتظار مجموع مربعات این انحرافات یعنی از رابطه زیر حاصل می‌شود:

یعنی مقادیر بزرگ میانگین VIFها موجب بیشتر شدن اختلاف بین میزان تخمین زده شده و مقدار واقعی ضرایب رگرسیون استاندارد شده می‌شود. وقتی که هیچ یک از متغیرهای مستقل مدل هیچ گونه وابستگی خطی با سایر متغیرهای مستقل نداردند، ضریب تعیین برای همه آن‌ها یک خواهد شد و بنابراین عامل تورم واریانس به ازای تمام متغیرهای مستقل مقدار ۱ را اختیار خواهد نمود. یعنی جمع عوامل تورم واریانس‌ها برابر p-۱ خواهد بود و امید ریاضی مجموع مربعات انحرافات مورد نظر به شکل زیر در می‌آید:

نسبت دو رابطه اخیر یعنی روابط ۷ و ۸ اطلاعات مفیدی را در مورد تأثیر هم خطی بودن بر مجموع مرعات انحرافات می‌دهد:

توجه داشته باشید که رابطه (۹) همان میانگین عوامل تورم واریانس‌ها است که با نماد نشان داده می‌شود.

در صورتی که میانگین عوامل تورم واریانس به‌طور قابل توجهی بزرگتر از ۱ باشد می‌تواند نشانگر جدی بودن مشکل هم خطی باشد. چند نکته: برخی از برنامه‌های کامپیوتری رگرسیون به شکل متقابل از عامل تورم واریانس استفاده می‌کنند تا مواردی را که یک متغیر مستقل به دلیل وابستگی داخلی شدید با سایر متغیرهای مستقل، نباید داخل مدل رگرسیون قرار داده شود مشخص کنند. حدود تلرانس برای که معمولاً استفاده می‌شود، مقادیر ۰٫۰۱ و ۰٫۰۰۱ و ۰٫۰۰۰۱ می‌باشد که در صورتی که کمتر از این مقدار اختیار کند داخل مدل قرار داده نمی‌شود. محدودیت عامل تورم واریانس برای کشف هم خطی این است که نمی‌تواند بین چندین هم خطی هم زمان تفاوت قائل شود.

روش‌های دیگر برای تشخیص مشکل هم خطی در مدل، پیچیده تر از روش عامل تورم واریانس می‌باشند.[۱]

منابع

  1. Neter, John,… (۱۹۹۹). Applied Linear Regression Models (۳rd ed.) The McGraw-Hill Companies, ISBN 0-256-08601-X