رگرسیون خطی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به ناوبری پرش به جستجو

رگرسیون خطی یا تنازل خطی یا وایازی خطی [الف] یکی از روش‌های تحلیل رگرسیون است. رگرسیون یک نوع مدل آماری‌ست برای پیش‌بینی یک متغیر از روی یک یا چند متغیر دیگر. به عنوان مثال برای پیش‌بینی قیمت خانه می‌توان از یک مدل رگرسیون استفاده کرد که در آن از متغیرهایی همچون مساحت خانه (متراژ)، تعداد اتاق‌ها و سرویس‌های بهداشتی، موقعیت خانه (شهر و/یا محله) و سایر اطلاعات استفاده شده‌است. یکی از ساده‌ترین مدل‌های رگرسیون، رگرسیون خطی است که در آن متغیر وابسته — متغیری که قرار است پیش‌بینی شود — به صورت ترکیبی خطی از متغیرهای مستقل پیش‌بینی می‌شود، بدین معنی که هر کدام از متغیرهای مستقل در ضریبی که در فرایند تخمین برای آن متغیر به‌دست آمده ضرب می‌شود؛ جواب نهائی مجموع حاصل‌ضرب‌ها به علاوه یک مقدار ثابت خواهد بود که آن هم در فرایند تخمین به‌دست آمده‌است.

فرایند تخمین سعی می‌کند ضرایبِ مدل رگرسیون خطی را به گونه‌ای انتخاب کند که با داده‌های موجود همخوانی داشته باشد، یعنی پیش‌بینی‌ها به مقادیر مستقل نزدیک باشند. از این رو یادگیریِ مدل رگرسیون، نمونه‌ای از فرایند بهینه‌سازی است که راه‌های مختلفی برای حل آن وجود دارد. اگر ضرایب مدل را با ، متغیر وابسته برای داده ام را با و متغیرهای مستقل این داده را با بردار نمایش دهیم، پیش‌بینی مدل برای این داده خواهد بود. برای نزدیکی هرچه بیشتر پیش‌بینی‌ها به داده‌های مستقل، فرایند یادگیری سعی می‌کند مجموع مربع تفاضل آن‌ها را - که در مدل‌سازی آماری به آن تابع هزینه می‌گویند - کمینه کند. یکی از روش‌های متداول برای کمینه‌کردن این تابع، روش کمترین مربعات است. این روش مستلزم پیدا کردن وارونه ضرب خارجی ماتریس تمام داده‌های مستقل با ماتریس ترانهاده آن است، فرآیندی که می‌تواند پرهزینه و ناکارا باشد، به خصوص زمانی که تعداد متغیرهای مستقل و داده‌ها زیاد است. علاوه بر این ممکن است ماتریس نهائی وارونه‌ناپذیر باشد. از این رو، برای کمینه‌کردن تابع هزینه عموماً از روش‌های جایگزین مانند گرادیان کاهشی تصادفی استفاده می‌شود. در این روش ابتدا پارامتر مدل را به صورت تصادفی مقداردهی می‌کنند و هر بار به کمک نمونه‌ای تصادفی از داده‌ها در جهت خلاف گرادیان حرکت کرده و پارامتر را به روز می‌کنند. این کار آنقدر ادامه پیدا می‌کند تا گرادیان به اندازهٔ کافی کوچک شود. از آنجا که تابع هزینه محدب است، تنها یک کمینه برایش وجود دارد و روش گرادیان کاهشی حتماً به جواب خواهد رسید.

اگر فرض را بر این قرار دهیم که متغیر وابسته از یک توزیع طبیعی با میانگینی که ترکیبی خطی از متغیرهای مستقل است و واریانسی ثابت پیروی می‌کند، و متغیرهای وابسته نسبت به هم مستقلند آنگاه برآورد درست‌نمایی بیشینه با پارامتری که از کمینه کردن تابع هزینه به دست می‌آید یکی خواهد بود. این تعبیر احتمالی برای محافظت مدل از بیش‌برازش مورد استفاده قرار می‌گیرد، به این شکل که با استفاده از قانون بیز فرض می‌شود خود پارامترهای مدل هم از یک توزیع احتمال که آن را توزیع پیشین می‌نامند پیروی می‌کنند و سپس با مشاهدهٔ داده‌ها، احتمال پسین محاسبه و بیشینه می‌شود. اگر احتمال پیشین به گونه‌ای باشد که پارامترهایی که نُرم کمتری دارند محتمل‌تر باشند مدل نهائی پارامترهایی را فراخواهد گرفت که بزرگ نیستند و این باعث حفاظت مدل از بیش‌برازش می‌شود.

مفاهیم[ویرایش]

رگرسیون خطی یک مدل آماری برای پیش‌بینی یک متغیر از روی یک یا چند متغیر دیگر است. به متغیری که پیش‌بینی بر روی آن انجام می‌شود متغیر وابسته و به متغیرهایی که پیش‌بینی به کمک آن‌ها انجام می‌شود متغیرهای مستقل می‌گویند. متغیر وابسته را معمولاً با نمایش می‌دهند و متغیرهای مستقل را با . اگر چند متغیر مستقل وجود داشته باشد برای سهولت کار همه را در یک بردار می‌گنجانند.[۱] اگر متغیر وابسته مقادیر عددی بگیرد مسئله مدل‌سازی رگرسیون نام می‌گیرد و در غیر این صورت دسته‌بندی آماری.[۲]

فرق رگرسیون خطی با سایر مدل‌های رگرسیون در این است که رابطه بین متغیرهای مستقل و متغیر وابسته یک رابطه خطی است.[۳] معمولاً زمانی می‌توان از رگرسیون استفاده کرد که یک همبستگی بین متغیرهای مستقل و وابسته وجود داشته باشد. این همبستگی را می‌توان به عنوان مثال از ضریب همبستگی پیرسن که عددی در بازه است به‌دست آورد. ضریب همبستگی مثبت با این معنی است که با افزایش یک متغیر، متغیر دیگر هم افزایش می‌یابد و بالعکس. اما ضریب همبستگی منفی نشان‌دهند رابطه معکوس بین دو متغیر است یعنی با افزایش یکی دیگری کاهش می‌یابد و بالعکس. ضریب صفر به این معنی است که هیچ رابطه‌ای بین دو متغیر نیست و دو متغیر نسبت به هم مستقلند.[۴]

استفاده از رگرسیون خطی از ابتدای قرن نوزدهم شروع شد.[۵] آدرین ماری لژاندر (۱۸۰۵ میلادی) و کارل فریدریش گاوس (۱۸۰۹ میلادی) از مدل‌سازی رگرسیون‌خطی توسط کمترین مربعات برای پیش‌بینی حرکت سیارات استفاده می‌کردند. همچنین آدولف کوتله استفاده از این روش را در علوم اجتماعی متداول کرد و به صورت گسترده‌ای از آن استفاده کرد.[۶]

پیش‌فرض‌ها[ویرایش]

معمولاً چند پیش‌فرض برای استفاده از رگرسیون خطی در نظر گرفته می‌شود. اگر اختلاف بین متغیر وابسته و پیش‌بینی مدل را مانده بنامیم. مفروضات زیر را باید در مدل‌سازی رگرسیون در نظر داشته باشیم:[۷]

  • امید ریاضی مانده‌ها صفر است.[۷]
  • مانده‌ها از یک توزیع طبیعی پیروی می‌کنند.[۷]
  • مانده‌ها از هم مستقل هستند.[۸]
  • واریانس مانده‌ها ثابت است.[۸]
  • بین متغیرهای مستقل هم‌خطی وجود ندارد.[۹]
  • رابطه بین میانگین متغیر وابسته و متغیرهای مستقل خطی است.[۳]

تخمین پارامترها برای مسائل تک متغیره[ویرایش]

رگرسیون میزان اثر دو یا چند متغیر بر متغیر وابسته را می‌سنجد و همبستگی رابطه بین دو یا چند متغیر را مورد سنجش قرار می‌دهد.[۱۰]

مثلاً تحلیل رگرسیونی سادهٔ زیر با نقطه، متغیر مستقل و ضرایب و خطی است:

خط راست:

در هر دو حالت، مقدار خطاست و پانویس شمارهٔ هر مشاهده (هر جفت و ) را نشان می‌دهد. با داشتن مجموعه‌ای از این نقطه‌ها می‌توان مدل را به دست آورد:

عبارت مانده نام دارد: . روش رایج برای به‌دست‌آوردن پارامترها، روش کمترین مربعات است. در این روش پارامترها را با کمینه‌کردن تابع زیر به دست می‌آورند:

در مورد رگرسیون ساده، پارامترها با این روش برابر خواهند بود با:

که در آن و میانگین و هستند.

تفاوت رگرسیون و همبستگی براساس هدف: هدف مدل‌های همبستگی بررسی میزان رابطه دو یا چند متغیر است در حالیکه رگرسیون به دنبال پیش‌بینی یک یا چند متغیر براساس یک یا چند متغیر دیگر است. از آنجا که رگرسیون برپایه داده‌های گذشته انجام می‌شود به آن عنوان Regression یعنی بازگشت به گذشته داده‌اند؛ بنابراین از نظر هدف همبستگی میزان و شدت رابطه متغیرها را نشان می‌دهد اما رگرسیون معادله ای را برای پیش‌بینی متغیرها ارائه می‌کند.

تفاوت رگرسیون و همبستگی براساس روش: آنچه در خروجی نتایج رگرسیون و همبستگی باعث ایجاد تفاوت می‌شود آن است که در همبستگی همیشه اثرات متغیرها به صورت دو به دو مورد سنجش قرار می‌گیرد اما در یک مدل رگرسیون اثرات متغیرها به صورت همزمان بررسی می‌شود. یعنی در همبستگی رابطه متغیر X با متغیر Y به وجود یا عدم وجود متغیر Z ارتباطی ندارد اما اما در رگرسیون تأثیر متغیر X بر متغیر Y به وجود یا عدم وجود متغیر Z بستگی دارد.

تخمین پارامترها برای مسائل چند متغیره[ویرایش]

صورت مسئله[ویرایش]

در بسیاری از مسائل رایج رگرسیون ورودی چند متغیره هست.[۱۱] به عنوان مثال اگر فرض کنیم متغیر ما بُعد دارد، یعنی ، مسئله رگرسیون به یک مسئله بهینه‌سازی برای پیدا کردن پارامتر تبدیل می‌شود. به این معنی که ما یک پارامتر چند متغیره به اسم داریم و سعی می‌کنیم که متغیر وابسته که همان است را با ترکیبی خطی از بردارد ورودیِ ، تخمین بزنیم یعنی . حال اگر یک بعد دیگر به متغیر اضافه کنیم و مقدارش را همیشه عدد ثابت در نظر بگیریم () و را به صورتِ تغییر دهیم، تخمینی که از داریم در واقع ضرب نقطه ای بردار ورودی و بردار پارامترهای ماست یعنی . حال فرض کنیم که تعداد مثال‌هایی که قرار است برای تخمین پارامترها استفاده کنیم است و این مثال‌ها را به این شکل نمایش دهیم . پارامتر بهینه پارامتری است که یک تابع هزینه را به حداقل برساند و تخمینهایی ما را به متغیر وابسته بسیار نزدیک کند. تابع هزینه را با جمع مربع تفاضل تخمین‌ها با متغیر وابسته تعریف می‌کنیم، به این شکل که ، با این حساب پارامتر بهینه می‌شود:

کمترین مربعات[ویرایش]

در این روش برای به‌دست آوردن یا همان پارامتر بهینه، از تابع نسبت به گرادیان می‌گیریم و گرادیان را برابر صفر قرار می‌دهیم و پارامتر بهینه را به‌دست می‌آوریم.[۱۲] از آنجا که تابع نسبت به تابعی کاملاً محدب است، در نقطه مینیمم گرادیان ما صفر خواهد بود و این روش پارامتر بهینه را به‌دست می‌دهد.[۱۳] برای تسهیل کار شکل تابع را با بکارگیری چند ماتریس ساده می‌کنیم. دو ماتریس برای این کار نیاز داردیم ماتریس و ماتریس . ماتریس ماتریس ورودهای چندمتغیره ماست. هر سطر معادل یک نمونه از داده ماست، سطر ام برابر است با امین نمونه ورودی ما یعنی بردار ، از اینرو یک ماتریس خواهد بود. ماتریس از طرف دیگر برابر است با مجموعه متغیرهای وابسته داده ما. سطر ام این ماتریس برابر است با متغیر وابسته برای امین نمونه داده ما یا همان . ماتریس یک ماتریس است. با کمک این دو ماتریس می‌توان تابع هزینه را به شکل ذیل تعریف کرد:

حال گرادیان این تابع را نسبت به پیدا می‌کنیم که می‌شود:

با برابر قرار دادن گرادیان با صفر پارامتر بهینه به‌دست می‌آید:

پس پارامتر بهینه ما برابر است با:

گرادیان کاهشی تصادفی[ویرایش]

روش پارامتر تخمین پارامتر بهینه از طریق کمترین مربعات ممکن است چند اشکال اساسی داشته باشد. یکی آنکه محاسبه ممکن است زمانبر باشد. بُعدِ ماتریس مربعی برابر است با و اگر بعد بالا باشد زمان محاسبه معکوس این ماتریس می‌تواند مسئله ساز شود. مضاف بر این، ماتریس ممکن است معکوس پذیر نباشد. از این رو روش‌های کاراتر و سریعتری برای تخمین پارامتر بهینه مورد استفاده قرار می‌گیرد. یکی از این روش‌ها روش گرادیان کاهشی تصادفی است.[۱۴] در این روش هر بار یک مثال را به‌صورت اتفاقی از نمونه‌های داده انتخاب کرده، گرادیان تابع هزینه را حساب می‌کنیم و کمی در جهت خلاف گرادیان پارامتر را حرکت می‌دهیم تا به یک پارامتر جدید برسیم. گرادیان جهت موضعی بیشترین افزایش را در تابع به ما نشان می‌دهد، برای بیشترین کاهش موضعی در خلاف جهت گرادیان باید حرکت کرد. اینکار را آنقدر ادامه می‌دهیم که گرادیان به اندازه کافی به صفر نزدیک شود. بجای اینکه داده‌ها را به‌صورت تصادفی انتخاب کنیم می‌توانیم به ترتیب داده شماره تا داده شماره را انتخاب کنیم و بعد دوباره به داده اولی برگردیم و این کار را چندین بار تکرار کنیم تا گرادیان تابع به اندازه کافی به صفر نزدیک شود. از لحاظ ریاضی این کار را می‌توان به شکل پایین انجام داد، پارامتر را در ابتدا به‌صورت تصادفی مقدار دهی می‌کنیم و بعد برای داده ام و تمامی ‌ها، یعنی از تا تغییر پایین را اعمال می‌کنیم، دراینجا همان مقداریست که در جهت گرادیان هربار حرکت می‌کنیم و مشتق جزئی داده ام در بُعد ام است:[۱۴]

برآورد درست نمایی بیشینه[ویرایش]

برای به‌دست آوردن پارامتر بهینه تابع هزینه یعنی را به حداقل می‌رسانیم. می‌توان به همین پارامتر بهینه از روش درست نمایی بیشینه هم رسید. فرض می‌کنیم که متغیر وابسته یعنی یک متغیر تصادفی است که مقدارش از یک توزیع طبیعی (توزیع گاوسی) پیروی می‌کند. این توزیع احتمال، واریانس ثابتی به اسم دارد ولی میانگین آن ترکیبی خطی از متغیرهای مستقل یعنی است. به عبارت دیگر میانگین ما برابر است با . با احتساب میانگین و واریانس توزیع متغیر وابسته ما می‌شود . حال اگر فرض کنیم داده‌های ما نسبت به هم مستقل هستند تابع درست نمایی برای تمام داده‌ها می‌شود:[۱۵]

حال باید به دنبال پارامتری باشیم که این تابع بزرگنمایی را بیشینه کند. از آنجا که تابع لگاریتم مطلقاً صعودیست، بجای بیشینه کردن این تابع لگاریتمش را هم می‌شود بیشنه کرد و پارامتر بهینه را از آن طریق پیدا کرد:

پارامتر بهینه از این طریق برابر است با:

همان‌طور که دیدم پارامتری که را بیشینه می‌کند همان پارامتری است که را به حداقل می‌رساند. این به معنی معادل بودن روش کمترین مربعات با روش درست نمایی بیشنه در رگرسیون خطی است.[۱۶]

تنظیم مدل[ویرایش]

پیچیدگی مدل‌های پارامتری با تعداد پارامترهای مدل و مقادیر آن‌ها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر بیش‌برازش [ب] برای مدل بیشتر است.[۱۷] پدیده بیش‌برازش زمانی رخ می‌دهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ می‌کند و در عمل یادگیری به خوبی انجام نمی‌شود. برای جلوگیری از بیش‌برازش در مدل‌های خطی مانند رگرسیون خطی یا رگرسیون لجستیک جریمه‌ای به تابع هزینه اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. به این کار تنظیم مدل [پ] گفته می‌شود. دو راه متداول تنظیم مدل‌های خطی روش‌های و هستند.[۱۸] در روش ضریبی از نُرمِ به تابع هزینه اضافه می‌شود و در روش ضریبی از نُرمِ که همان نُرمِ اقلیدسی است به تابع هزینه اضافه می‌شود.

در تنظیم مدل به روش تابع هزینه را به این شکل تغییر می‌دهیم:[۱۸]

این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث می‌شود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصلاح خلوت (Sparse) شود.[۱۹]

در تنظیم مدل به روش تابع هزینه را به این شکل تغییر می‌دهیم:[۱۸]

در روش تنظیم از طریق سعی می‌شود طول اقلیدسی بردار کوتاه نگه داشته شود. در روش و یک عدد مثبت است که میزان تنظیم مدل را معین می‌کند. هرچقدر کوچکتر باشد جریمه کمتری برا بزرگی نرم بردار پارامترها یعنی پرداخت می‌کنیم. مقدار ایدئال از طریق آزمایش بر روی داده اعتبار (Validation Data) پیدا می‌شود.[۱۵]

با استفاده از ضرایب لاگرانژ می‌توان اثبات کرد که تنظیم مدل و نوعی بهینه‌سازی مقید هستند. در تنظیم مدل تابع هزینه به نحوی کمینه می‌شود که نرمِ از یک مقدار مشخصی که بستگی به دارد بیشتر نشود. به همین نحو، تنظیم مدل تابع هزینه را همزمان با مقید کردن نرم کاهش می‌دهد.[۲۰]

کانتورهای قرمز تابع هزینه را نمایش می‌دهند و اشکال آبی مقید سازی نرم پارامتر را. شکل سمت چپ مربوط به است که پارامتر با نابرابری مقید شده‌است و شکل سمت راست مربوط به است که پارامتر آن با نابرابری مقید شده‌است.[۲۰]

تفسیر احتمالی تنظیم مدل[ویرایش]

اگر بجای روش درست نمایی بیشینه از روش بیشینه سازی احتمال پسین استفاده کنیم به ساختار «تنظیم مدل» [پ] خواهیم رسید.[۲۱] اگر مجموعه داده را با نمایش بدهیم و پارامتری که به دنبال تخمین آن هستیم را با ، احتمال پسین ، طبق قانون بیز متناسب خواهد بود با حاصلضرب درست نمایی یعنی و احتمال پیشین یعنی :[۲۲]

ازین رو

معادله خط پیشین نشان می‌دهد که برای یافتن پارامتر بهینه فقط کافیست که احتمال پیشین را نیز در معادله دخیل کنیم. اگر احتمال پیشین را یک توزیع احتمال با میانگین صفر و کوواریانس در نظر بگیریم به معادله پایین می‌رسیم:[۲۲]

با ساده کردن این معادله به این جواب می‌رسیم، در اینجا برابر است با :

همان‌طور که دیدیم جواب همان تنظیم مدل با نرم است.

حال اگر احتمال پیشین را از نوع توزیع لاپلاس با میانگین صفر در نظر بگیریم به تنظیم مدل با نرم خواهیم رسید.[۲۲]

کاربردها[ویرایش]

رگرسیون خطی به‌طور گسترده‌ای در علوم زیستی، رفتاری و اجتماعی[۲۳] برای توصیف روابط احتمالی بین متغیرها مورد استفاده قرار می‌گیرد و از مهترین ابزارها برای این کار است.[۲۳] رگرسیون خطی همچنین در قیمت‌گذاری دارایی‌های سرمایه‌ای و تحلیل و اندازه‌گیری خطر سرمایه‌گذاری مورد استفاده قرار می‌گیرد. این مدل مستقیماً از ضریب بتا در مدل رگرسیون‌خطی به دست می‌آید که بازده سرمایه را به بازده تمام دارایی‌ها با ریسک بالا مربوط می‌کند.[۲۴] همچنین در علم اقتصاد رگرسیون خطی یکی از مهم‌ترین و پراستفاده‌ترین ابزارهاست. به عنوان مثال، برای پیش‌بینی هزینه مصرف،[۲۵] هزینه سرمایه‌گذاری ثابت، سرمایه‌گذاری موجودی، خرید صادرات کشور،[۲۶] هزینه برای واردات،[۲۶] تقاضا برای نگهداری دارایی‌های نقد،[۲۷] تقاضای کار،[۲۸] و عرضه نیروی کار[۲۸] از این مدل استفاده می‌شود. در علوم محیط زیست نیز رگرسیون خطی کاربردهای گسترده‌ای دارد. در کانادا، از رگرسیون خطی برای پیش‌بینی اثرات زیست‌محیطی کارخانه‌های کاغذسازی و معادن فلزات بر روی ماهی‌ها و مناطق دریابُن استفاده می‌کنند.[۲۹] همچنین رگرسیون‌خطی و مشتقات آن یکی از ابزارهای شناخته شده و پرکاربرد در شاخه‌های هوش مصنوعی مخصوصاً در شاخه یادگیری ماشین است.[۳۰]

جستارهای وابسته[ویرایش]

یادداشت‌ها[ویرایش]

  1. linear regression
  2. Overfitting
  3. ۳٫۰ ۳٫۱ Regularization

منابع[ویرایش]

  1. David A. Freedman (2009). Statistical Models: Theory and Practice. Cambridge University Press. p. 26. A simple regression equation has on the right hand side an intercept and an explanatory variable with a slope coefficient. A multiple regression equation has two or more explanatory variables on the right hand side, each with its own slope coefficient
  2. Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, p. 179, ISBN 978-0-387-31073-2
  3. ۳٫۰ ۳٫۱ Hilary L. Seal (1967). "The historical development of the Gauss linear model". Biometrika. 54 (1/2): 1–24. doi:10.1093/biomet/54.1-2.1. JSTOR 2333849.
  4. Boddy, Richard; Smith, Gordon (2009). Statistical methods in practice: for scientists and technologists. Chichester, U.K.: Wiley. pp. 95–96. ISBN 978-0-470-74664-6.
  5. Yan, Xin (2009), Linear Regression Analysis: Theory and Computing, World Scientific, pp. 1–2, ISBN 9789812834119, Regression analysis … is probably one of the oldest topics in mathematical statistics dating back to about two hundred years ago. The earliest form of the linear regression was the least squares method, which was published by Legendre in 1805, and by Gauss in 1809 … Legendre and Gauss both applied the method to the problem of determining, from astronomical observations, the orbits of bodies about the sun.
  6. Stigler, Stephen M (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard. ISBN 0-674-40340-1.
  7. ۷٫۰ ۷٫۱ ۷٫۲ Poole, Michael A.; O'Farrell, Patrick N. (1971). "The Assumptions of the Linear Regression Model". Transactions of the Institute of British Geographers (52): 145–158. doi:10.2307/621706. ISSN 0020-2754. Archived from the original on 8 April 2019.
  8. ۸٫۰ ۸٫۱ Allen, R. G. D. (1939). "The Assumptions of Linear Regression". Economica. 6 (22): 191–201. doi:10.2307/2548931. ISSN 0013-0427. Archived from the original on 8 April 2019.
  9. Tibshirani, Robert (1996). "Regression Shrinkage and Selection via the Lasso". Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. JSTOR 2346178.
  10. Rencher, Alvin C.; Christensen, William F. (2012), "Chapter 10, Multivariate regression – Section 10.1, Introduction", Methods of Multivariate Analysis, Wiley Series in Probability and Statistics, 709 (3rd ed.), John Wiley & Sons, p. 19, ISBN 978-1-118-39167-9.
  11. Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به English). John Wiley & Sons. p. 19. ISBN 9781118391679. Archived from the original on 5 October 2018.
  12. Yan, Xin (2009). Linear Regression Analysis: Theory and Computing. World Scientific. ISBN 9789812834119. Archived from the original on 5 October 2018.
  13. Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به English). John Wiley & Sons. p. 155. ISBN 9781118391679. Archived from the original on 5 October 2018.
  14. ۱۴٫۰ ۱۴٫۱ Zhang, Tong (2004). "Solving Large Scale Linear Prediction Problems Using Stochastic Gradient Descent Algorithms". Proceedings of the Twenty-first International Conference on Machine Learning. ICML '04. New York, NY, USA: ACM: 116–. doi:10.1145/1015330.1015332. ISBN 978-1-58113-838-2. Archived from the original on 24 May 2019.
  15. ۱۵٫۰ ۱۵٫۱ Machine learning: a probabilistic perspective, Kevin P Murphy, 2012, p. 225, Cambridge, MA
  16. Machine learning: a probabilistic perspective, Kevin P Murphy, 2012, p. 217, Cambridge, MA
  17. Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics. doi:10.1007/978-3-642-20192-9. ISSN 0172-7397. Archived from the original on 21 February 2019.
  18. ۱۸٫۰ ۱۸٫۱ ۱۸٫۲ Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures. Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8. ISBN 9783642201912. Archived from the original on 5 October 2018.
  19. Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing. 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397. Archived from the original on 24 May 2019.
  20. ۲۰٫۰ ۲۰٫۱ Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, p. 146, ISBN 978-0-387-31073-2
  21. Bishop, Christopher M (2016-08-23). Pattern Recognition and Machine Learning (به English). New York: Springer New York. p. 30. ISBN 9781493938438. Archived from the original on 5 October 2018.
  22. ۲۲٫۰ ۲۲٫۱ ۲۲٫۲ Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE. 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480. Archived from the original on 8 April 2019.
  23. ۲۳٫۰ ۲۳٫۱ Dodhia, Rahul M. (2005). "Review of Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences". Journal of Educational and Behavioral Statistics. 30 (2): 227–229. ISSN 1076-9986. Archived from the original on 24 May 2019.
  24. Cook, Douglas O.; Kieschnick, Robert; McCullough, B. D. (2008-12-01). "Regression analysis of proportions in finance with self selection". Journal of Empirical Finance. 15 (5): 860–867. doi:10.1016/j.jempfin.2008.02.001. ISSN 0927-5398. Archived from the original on 24 May 2019.
  25. Deaton, Angus (1992). Understanding Consumption. Oxford University Press. ISBN 978-0-19-828824-4.
  26. ۲۶٫۰ ۲۶٫۱ Krugman, Paul R.; Obstfeld, M.; Melitz, Marc J. (2012). International Economics: Theory and Policy (9th global ed.). Harlow: Pearson. ISBN 978-0-273-75409-1.
  27. Laidler, David E. W. (1993). The Demand for Money: Theories, Evidence, and Problems (4th ed.). New York: Harper Collins. ISBN 978-0-06-501098-5.
  28. ۲۸٫۰ ۲۸٫۱ Ehrenberg; Smith (2008). Modern Labor Economics (10th international ed.). London: Addison-Wesley. ISBN 978-0-321-53896-3.
  29. EEMP webpage بایگانی‌شده در ۲۰۱۱-۰۶-۱۱ توسط Wayback Machine
  30. "Linear Regression (Machine Learning)". University of Pittsburgh. Archived from the original (PDF) on 24 May 2019.