تحلیل رگرسیون
![]() | این مقاله به هیچ منبع و مرجعی استناد نمیکند. |
بخشی از مجموعه مباحث دربارهٔ آمار |
تحلیل رگرسیون |
---|
![]() |
مدلها |
تخمین |
پیشزمینه |
واکاوی وایازشی یا تحلیل رگرسیون در مدلهای آماری، یک فرایند آماری برای تخمین روابط بین متغیرها میباشد. این روش شامل تکنیکهای زیادی برای مدلسازی و تحلیل متغیرهای خاص و منحصر بفرد، با تمرکز بر رابطه بین متغیر وابسته و یک یا چند متغیر مستقل، میباشد. تحلیل رگرسیون خصوصاً کمک میکند در فهم اینکه چگونه مقدار متغیر وابسته با تغییر هرکدام از متغیرهای مستقل و با ثابت بودن دیگر متغیرهای مستقل تغییر میکند. بیشترین کاربرد تحلیل رگرسیون تخمین امید ریاضی شرطی متغیر وابسته از متغیرهای مستقل معین است که معادل مقدار متوسط متغیر وابسته است وقتی که متغیرهای مستقل ثابت هستند. کمترین کاربرد آن تمرکز روی چندک یا پارامتر مکانی توزیع شرطی متغیر وابسته از متغیر مستقل معین است. در همه موارد هدف تخمین یک تابع از متغیرهای مستقل است که تابع وایازش نامیده شدهاست. در تحلیل رگرسیون تعیین پراکندگی متغیر وابسته اطراف تابع رگرسیون مورد توجه است که میتواند توسط یک توزیع احتمال توضیح داده شود.
تحلیل رگرسیون به صورت گسترده برای پیشبینی استفاده شدهاست. تحلیل رگرسیون همچنین برای شناخت ارتباط میان متغیر مستقل و وابسته و شکل این روابط استفاده شدهاست. در شرایط خاصی این تحلیل برای استنتاج روابط عالی بین متغیرهای مستقل و وابسته میتواند استفاده شود. هرچند این میتواند موجب روابط اشتباه یا باطل شود بنابراین احتیاط قابل توصیه است.
تکنیکهای زیادی برای انجام تحلیل رگرسیون توسعه داده شدهاست. روشهای آشنا همچون رگرسیون خطی و حداقل مربعات که پارامتری هستند، در واقع در آن تابع رگرسیون تحت یک تعداد محدودی از پارامترهای ناشناخته از دادهها تخمین زده شدهاست. رگرسیون غیر پارامتری به روشهایی اشاره میکند که به توابع رگرسیون اجازه میدهد تا در یک مجموعه مشخص از توابع با احتمال پارامترهای نامحدود قرار گیرند.
تحلیل رگرسیونی فن و تکنیکی آماری برای بررسی و مدلسازی ارتباط بین متغیرها است. رگرسیون تقریباً در هر زمینهای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای برآورد و پیشبینی مورد نیاز است.
تعریف لغوی[ویرایش]
در فرهنگ لغت واژه رگرسیون (Regression) از لحاظ لغوی به معنی پسروی، برگشت و بازگشت است. اما از دید آمار و ریاضیات به مفهوم بازگشت به یک مقدار متوسط یا میانگین بهکارمیرود. بدین معنی که برخی پدیدهها به مرور زمان از نظر کمی به طرف یک مقدار متوسط میل میکنند. پیشنهاد فرهنگستان برای این واژه وایازش میباشد.
تاریخچه[ویرایش]
در سال ۱۸۷۷ فرانسیس گالتون (به انگلیسی: Francis Galton) در مقالهای که دربارهٔ بازگشت به میانگین منتشر کردهبود، اظهار داشت که متوسط قد پسران دارای پدران قدبلند (کوتاه قد)، کمتر (بیشتر) از قد پدرانشان میباشد. به این ترتیب گالتون پدیده بازگشت به طرف میانگین را در دادههایش مورد تأکید قرارداد. برای گالتون رگرسیون مفهومی زیستشناختی داشت، اما کارهای او توسط کارل پیرسون (به انگلیسی: Karl Pearson) برای مفاهیم آماری توسعه دادهشد. گرچه گالتون برای تأکید بر پدیده «بازگشت به سمت مقدار متوسط» از تحلیل رگرسیون استفاده کرد، اما به هر حال امروزه واژه تحلیل رگرسیون جهت اشاره به مطالعات مربوط به روابط بین متغیرها به کار بردهمیشود.[۱]
مدلهای وایازش[ویرایش]
مدلهای وایازش شامل متغیرهای زیر است:
- پارامترهای ناشناخته، با مشخص میشود و یک مقیاس یا بردار نمایش میدهد.
- متغیرهای مستقل
- متغیر وابسته
در زمینههای مختلفی از کاربرد (زیستشناسی، علوم اجتماعی، اقتصاد، هوش مصنوعی و …)، اصطلاحات مختلفی به جای متغیرهای مستقل و وابسته استفاده شدهاست.
یک مدل رگرسیون، Y را به یک تابع از X و مرتبط میکند.
نشان تقریب معمولاً به عنوان معرفی شدهاست. برای انجام تحلیل رگرسیون، شکل تابع باید مشخص شده باشد. گاهی اوقات شکل این تابع بر اساس دانشی دربارهٔ روابط بین Y و X که بر روی داده تکیه ندارد.
فرض کنید بردار پارامترهای ناشناخته به طول k موجود است. برای اجرای یک تحلیل رگرسیون کاربر باید اطلاعاتی در مورد متغیر وابسته Y فراهم کند:
- اگر N نقطه داده از (Y,X)مشاهده شده باشد وقتی N<k است دیدگاههای بسیار کلاسیک برای این تحلیل نمیتواند استفاده شود از آنجایی که سیستم معادلات تعریف شده برای مدل رگرسیون قابل تخمین نیست و داده کافی برای بازیابی وجود ندارد.
- اگر تعداد نقاط N=k مشاهده شدهاست و تابع f خطی است، معادلات دقیق حل شود. این تعداد محاسبات به یک مجموعه N معادلات با N پارامتر ناشناخته (همان عناصر )کاهش میدهد و یک راه حل یکتا دارد آنچنان که X متغیرهای مستقل خطی هستند. چندین راه حل شاید وجود داشته باشد اگر f غیرخطی است.
- وضعیت بسیار مشترک N>k است. در این صورت اطلاعات کافی در دادهها برای تخمین مقدار یکتا برای وجود دارد.
در مورد آخر، تحلیل رگرسیون ابزاری فراهم میکند:
- یافتن یک راه حل برای پارامترهای ناشناخته ، برای نمونه فاصله بین مقادیر پیشبینی و اندازهگیری شده از متغیر مستقل Y حداقل کند (حداقل مربعات)
- تحت فرضهای آماری خاص، تحلیل رگرسیون اطلاعات زیادی برای تعیین اطلاعات آماری دربارهٔ پارامترهای ناشناخته و مقادیر پیشبینی از متغیر تصادفی Y استفاده میکند.
وایازش کاذب[ویرایش]
وایازش کاذب (به انگلیسی: regression) با فرض اینکه متغیرهای و مانا میباشند تخمینهای ما از پارامترها و تستهای و درست میباشد. برای نشاندادن سازگاری تخمینهای حداقل مربعات معمولی، ما از این نتایج زمانی که اندازه نمونه افزایش مییابد و واریانس نمونه به واریانس جامعه همگرا میشود، استفاده میکنیم. متأسفانه وقتی سری نامانا باشد واریانس خوش تعریف نیست، زیرا حول یک میانگین ثابت نوسان نمیکند. برای توضیح بیشتر دو متغیر و را در نظر بگیرید که به وسیلهٔ یک فرایند گام تصادفی تعریف میشود.
که و دارای توزیع مستقل میباشد. هیچ دلیلی برای ارتباط بین و وجود ندارد. یک محقق اگر اثر را روی و یک جزء ثابت رگرس کند و رگرسیون زیر را انجام دهد:
- خط راست:
نتایج این رگرسیون ممکن است به وسیلهٔ r^۲ بالا و خود همبستگی بالا بین باقیماندهها و همچنین دارای ارزش معنیداری برای پارامتر باشد. این پدیده به رگرسیون کاذب معروف است. در این گونه از موارد دو سری نامانا ارتباط کاذبی دارند به این علت که که هر دوی آنها در طول زمان تغییر میکنند و تابعی از زمانند. همانطور که گراجر و نی یو بلد بیان کردند در این حالت رگرسیون دارای r^۲ بالا؛ و آماره دوربین واتسون پایین خواهدبود و تستهای و ممکن است خیلی گمراهکننده باشند. دلیل آن نیز این است که توزیعهای آمارههای تستهای سنتی خیلی متفاوت از نتایجی که تحت فرض مانایی گرفتهمیشود، میباشد. بهخصوص همانطور که فلیپس (۱۹۸۷)نشان داد؛ همانطور که اندازه نمونه افزایش مییابد نمیتوان به معنیداری تخمین زن حداقل مربعات معمولی و آمارههای تستهای و و آماره دوربین واتسون اعتماد کرد. دلیل آن این است که و متغیرهای میباشد و جزء خطا نیز یک متغیر نامانا میباشد.
اگر ارزشهای گذشته هر دو متغیر وابسته و مستقل را در رگرسیون وارد کنیم مشکل رگرسیون کاذب حل میشود. در این حالت تخمینهای حداقل مربعات معمولی برای همه پارامترها سازگار میباشد.
شیوهها[ویرایش]
شیوههای مهم تحلیلهای وایازشی به شرج زیر هستند.
این تنوع باعث شدهاست که بتوان به راحتی هر نوع دادهای (اغلب از نوع دادههای پیوسته) را تحلیل کرد و به راحتی نتیجهگیری نمود.
جلوگیری از بیش برازش(Overfitting)[ویرایش]
در رگرسیون خطیای که فقط محدود به تنظیم ضرایب یک چندجمله ای باشد، هیچ قانون محدود کنندهای روی وزن ها وجود ندارد. این کار باعث پیچیده تر شدن مدل میشود که به overfitting بر روی داده train منجر میشود. به گذاشتن محدودیت روی وزنها regularization میگوییم. به عبارتی وظیفه ما مینیمم کردن مجموع loss و regularization term است. حال مدلهایی را معرفی میکنیم که بخش regularization را به رگرسیون خطی اضافه کردهاند.
ریج رگرسیون یک تکنیک است که هنگامی استفاده میشود که دیتای مورد استفاده مشکل چندخطی بودن دارد.(متغیرهای تصادفی مستقلی که ضریب همبستگی بالایی دارند) در چندخطی بودن اگر چه تخمین های کمترین مربعات بایاس Bias کم است اما واریانس Variance زیاد است که باعث انحراف مقدار پیش بینی شده مدل از مقدار واقعی میشود. با اضافه کردن درجاتی از Bias به تخمین های رگرسیون، ریج رگرسیون خطای استاندارد standard error را کاهش میدهد. در این مدل، regularization term به صورت جمع توان دو وزنها تعریف میشود. به عبارتی در این مدل باید تابع زیر را کمینه کنیم:
مشابه با Lasso Regression ،Ridge Regression(که مخفف عبارت Least Absolute Shrinkage and Selection Operator است) نیز به مقدار قدرمطلقی ضرایب رگرسیون پنالتی اختصاص میدهد. اگر به رابطه ی Lasso Regression نگاه کنیم میبینیم که تفاوت Lasso Regression با Ridge Regression آن است که از تابع قدرمطلق به جای مجذور در تابع پنالتی استفاده میکند. Lasso Regularization ضرایب رگرسیون را به 0 میرساند که کمک زیادی به انتخاب ویژگی(Feature Selection) میکند.اگر مدل های پیش بینی کننده مقدار زیادی با هم همبستگی داشته باشند Lasso فقط یکی از آن ها را انتخاب میکند و بقیه را به 0 کاهش میدهد. Lasso یک روش Regularization است که از L1 Regularization استفاده میکند.
در این مدل، regularization term به صورت جمع قدر مطلق وزنها تعریف میشود. به عبارتی در این مدل باید تابع زیر را کمینه کنیم:
این مدل در واقع ترکیبی از Lasso و Ridge است که با L1 Regularizer و L2 Regularizer آموزش داده میشود. این مدل هنگامی استفاده میشود که ویژگی های زیادی وجود دارند که همبستگی دارند. Lasso در چنین شرایطی یکی را انتخاب میکند، اما Elastic net به میزانی از هر دو را انتخاب میکند. در واقع اگر مقدار ratio در پارامتر ها برابر با صفر باشد، مدل تبدیل به Ridge میشود و اگر برابر با یک باشد مدل تبدیل به Lasso میشود. در این مدل، regularization term به صورت جمع توان دو و توان یک وزنها تعریف میشود. به عبارتی خصوصیت های ridge و lasso را در خود جمع کرده است. در این مدل باید تابع زیر را کمینه کنیم:
برازش لاجستیک(Logistic Regression)[ویرایش]
رگرسیون لجستیک در اوایل قرن بیستم در علوم زیستی مورد استفاده قرار گرفت. سپس در بسیاری از کاربردهای علوم اجتماعی مورد استفاده قرار گرفت. رگرسیون لجستیک زمانی استفاده می شود که متغیر وابسته (هدف) موضوعی(Categorial) ای باشد. رگرسیون لجستیک تحلیل رگرسیونی مناسب برای زمانی است که متغیر وابسته دوگانه است (باینری). مانند تمام تحلیلهای رگرسیون، رگرسیون لجستیک یک تحلیل پیشبینیکننده است. رگرسیون لجستیک برای توصیف داده ها و توضیح رابطه بین یک متغیر باینری وابسته و یک یا چند متغیر مستقل اسمی، ترتیبی، بازه ای یا نسبتی استفاده می شود. گاهی اوقات تفسیر رگرسیون لجستیک دشوار است. ابزار آمار Intellectus به راحتی به شما امکان می دهد تجزیه و تحلیل را انجام دهید، سپس به انگلیسی ساده خروجی را تفسیر می کند.
رگرسیون لجستیک چند جمله ای(Multinomial) می تواند سناریوهایی را مدل کند که در آن بیش از دو نتیجه مجزا وجود دارد. رگرسیون لجستیک یک روش تجزیه و تحلیل مفید برای مسائل طبقه بندی است، که در آن شما سعی می کنید تعیین کنید که آیا یک نمونه جدید به بهترین وجه در یک دسته قرار می گیرد یا خیر. از آنجایی که جنبههای امنیت سایبری مشکلات طبقهبندی هستند، مانند تشخیص حمله، رگرسیون لجستیک یک تکنیک تحلیلی مفید است.
محاسبه[ویرایش]
برای انجام یک تحلیل وایازشی ابتدا تحلیلگر حدس میزند که بین دو متغیر، نوعی ارتباط وجود دارد، در حقیقت حدس میزند که یک رابطه به شکل یک خط بین دو متغیر وجود دارد و سپس به جمعآوری اطلاعات کمی از دو متغیر میپردازد و این دادهها را به صورت نقاطی در یک نمودار دو بعدی رسم میکند.
نرمافزارها[ویرایش]
نرمافزارهای بسیاری هستند که قابلیت محاسبه رگرسیون را دارند و مشهورترین آنها عبارتند از:
- نرمافزار مایکروسافت اکسل (که سادهترین نرمافزار است)
- اسپیاساس SPSS
- اسپلاس +S یا Plus-S
- ساس (نرمافزار) SAS
- آر R
- کتابخانه sklearn در Python
جستارهای وابسته[ویرایش]
منابع[ویرایش]
- ↑ بازرگان لاری، عبدالرضا (۱۳۹۱). رگرسیون خطی کاربردی. شیراز: انتشارات دانشگاه شیراز. شابک ۹۶۴-۴۶۲-۳۷۴-۶.