تحلیل وایازش

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از تحلیل رگرسیون)
پرش به: ناوبری, جستجو

تحلیل رگرسیونی یا تحلیل وایازش (به انگلیسی: Regression analysis) فن و تکنیکی آماری برای بررسی و مدل‌سازی ارتباط بین متغیرها است. رگرسیون تقریباً در هر زمینه‌ای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای برآورد و پیش بینی مورد نیاز است.

تحلیل رگرسیونی، یکی از پرکاربردترین روش در بین تکنیک‌های آماری است.

محتویات

[ویرایش] تعریف لغوی

واژه رگرسیون(Regression) را از لحاظ لغوی در فرهنگ لغت به معنی پسروی، برگشت و بازگشت است. اما از دید آمار و ریاضیات به مفهوم بازگشت به یک مقدار متوسط یا میانگین به کار می‌رود. بدین معنی که برخی پدیده‌ها به مرور زمان از نظر کمی به طرف یک مقدار متوسط میل می‌کنند.

[ویرایش] تاریخچه

در سال ۱۸۷۷ فرانسیس گالتون (به انگلیسی: Francis Galton) در مقاله‌ای که درباره بازگشت به میانگین منتشر کرده بود. اظهار داشت که متوسط قد پسران دارای پدران قد بلند، کمتر از قد پدرانشان می‌باشد. به نحو مشابه متوسط قد پسران دارای پدران کوتاه قد نیز بیشتر از قد پدرانشان گزارش شده‌است. به این ترتیب گالتون پدیده بازگشت به طرف میانگین را در داده‌هایش مورد تأکید قرار داد. برای گالتون رگرسیون مفهومی زیست‌شناختی داشت اما کارهای او توسط کارل پیرسون (به انگلیسی: Karl Pearson) برای مفاهیم آماری توسعه داده شده. گرچه گالتون برای تأکید بر پدیده «بازگشت به سمت مقدار متوسط» از تحلیل رگرسیون استفاده کرد، اما به هر حال امروزه واژه تحلیل رگرسیون جهت اشاره به مطالعات مربوط به روابط بین متغیرها به کار برده می‌شود.

[ویرایش] رگرسیون کاذب

رگرسیون کاذب (به انگلیسی: regression ) با فرض اینکه متغیرهای y_t و x_t مانا می‌باشد تخمین‌های ما از پارامترها و تستهای Tو Fدرست می‌باشد. برای نشان دادن سازگاری تخمین‌های حداقل مربعات معمولی؛ ما از این نتایج زمانیکه اندازه نمونه افزایش می‌یابد و واریانس نمونه به واریانس جامعه همگرا می‌شود، استفاده می‌کنیم. متاسفانه وقتی سری نامانا باشد واریانس خوش تعریف نیست زیرا حول یک میانگین ثابت نوسان نمی‌کند. برای توضیح بیشتر دو متغیر y_t و x_t را در نظر بگیرید که بوسیله یک فرآیند گام تصادفی تعریف می‌شود.

  1. y_t=  y_t-1 +\epsilon_1t,\quad t=1,\dots,N\!
  2. x_t=  x_t-1 +\epsilon_2t,\quad t=1,\dots,N\!

که \epsilon_2t و \epsilon_1t دارای توزیع مستقل می‌باشد.هیچ دلیلی برای ارتباط بین y_t و x_t وجود ندارد یک محقق اگراثر y_t راروی x_t و یک جز ثابت رگرس کندو رگرسیون زیر را انجام دهد :

خط راست: y_i=\beta_0 +\beta_1 x_t +\epsilon_t,\quad t=1,\dots,N\!

نتایج این رگرسیون ممکن است بوسیله r^۲ بالاوخود همبستگی بالا بین باقیمانده هاو همجنین دارای ارزش معنی داری برای پارامتر beta_1 باشد. این پدیده به رگرسیون کاذب معروف است. در این گونه از موارد دو سری نامانا ارتباط کاذبی دارند به این علت که که هر دوی آنها در طول زمان تغییر می‌کنند و تابعی از زمانند. هماطور که گراجر و نی یو بلد بیان کردند در این حالت رگرسیون دارای r^۲ بالا؛ و آماره دوربین واتسون پایین خواهد بود و تستهای Tو F ممکن است خیلی گمراه کننده باشند. دلیل آن نیز این است که توزیع‌های آماره‌های تست‌های سنتی خیلی متفاوت از نتایجی که تحت فرض مانایی گرفته می‌شود، می‌باشد. بخصوص همانطور که فلیپس (۱۹۸۷)نشان داد؛ همانطور که اندازه نمونه افزایش می‌یابد نمی‌توان به معنی داری تخمین زن حداقل مربعات معمولی وآماره‌های تست‌های Tو F و آماره دوربین واتسون اعتماد کرد. دلیل آن این است که y_t و x_t متغیر‌های I(1) می‌باشد و جر خطا نیزیک متغیرناماناI(1) می‌باشد.

اگر ارزش‌های گذشته هر دو متغیر وابسته و مستقل را در رگرسیون وارد کنیم مشکل رگرسیون کاذب حل می‌شود. در این حالت تخمین‌های حداقل مربعات معمولی برای همه پارامتر‌ها سازگار می‌باشد.

[ویرایش] شیوه‌ها

شیوه‌های مهم تحلیل‌های رگرسیونی به شرج زیر هستند.

این تنوع باعث شده که بتوان به راحتی هر نوع داده‌ای (اغلب از نوع داده‌های پیوسته) را تحلیل کرد و به راحتی نتیجه گیری نمود.

[ویرایش] محاسبه

برای انجام یک تحلیل رگرسیونی ابتدا تحلیل‌گر حدس می‌زند که بین دو متغیر، نوعی ارتباط وجود دارد، در حقیقت حدس می‌زند که یک رابطه به شکل یک خط بین دو متغیر وجود دارد و سپس به جمع‌آوری اطلاعات کمی از دو متغیر می‌پردازد و این داده‌ها را به صورت نقاطی در یک نمودار دو بعدی رسم می‌کند.

[ویرایش] نرم افزارها

نرم افزارهای بسیاری هستند که قابلیت محاسبه رگرسیون را دارند و مشهورترین آنها عبارتند از

[ویرایش] جستارهای وابسته

[ویرایش] منابع

ابزارهای شخصی

گویش‌ها
فضاهای نام
عملکردها
گشتن
چاپ/برون‌بری
جعبه‌ابزار
زبان‌های دیگر