رگرسیون خطی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو
رگرسیون خطی با یک متغیر مستقل

رگرسیون خطی یا تنازل خطی یا وایازی خطی (به انگلیسی: Linear regression) یکی از روشهای تحلیل رگرسیون است. در رگرسیون خطّی، متغیّر وابسته y_i ترکیب خطی‌ای از ضرایب (پارامترها) است (لازم نیست که نسبت به متغیرهای مستقل خطی باشد). مثلاً تحلیل رگرسیونی سادهٔ زیر با N نقطه، متغیر مستقل x_i و ضرایب \beta_0 و \beta_1 خطی است:

خط راست: y_i=\beta_0 +\beta_1 x_i +\epsilon_i,\quad i=1,\dots,N\!

در هر دو حالت، \epsilon_i مقدار خطاست و پانویس i شمارهٔ هر مشاهده (هر جفت x_i و y_i) را نشان می‌دهد. با داشتن مجموعه‌ای از این نقطه‌ها می‌توان مدل را به دست آورد:

 y_i = \widehat{\beta}_0 + \widehat{\beta}_1 X_i + e_i

عبارت  e_i مانده نام دارد:  e_i = y_i - \widehat{y}_i . روش رایج برای به‌دست‌آوردن پارامترها، روش کمترین مربعات است. در این روش پارامترها را با کمینه‌کردن تابع زیر به دست می‌آورند:

\mathrm{SSE}=\sum_{i=1}^{N}e_i^2

در مورد رگرسیون ساده، پارامترها با این روش برابر خواهند بود با:

\widehat{\beta_1}=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}
\hat{\beta_0}=\bar{y}-\widehat{\beta_1}\bar{x}

که در آن \bar{x} و \bar{y} میانگین x و y هستند.