کمینه مربعات خطی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

در محاسبات عددی، اگر یک مجموعه از نقاط را بخواهید با یک خط درون‌یابی کنید و شیب خط (m) و عرض از مبدا (h) را بدست آورید، کافی است که خطای تعریف شده (E) در زیر را کمینه (مینیمم) کنید:

\begin{alignat}{7}
E=(y_i-mx_i-h)^2\\
\frac{dE}{dm}=0 \to{} \Sigma_i{x_i(y_i-mx_i-h)=0}\\
\frac{dE}{dh}=0 \to{} \Sigma_i{(y_i-mx_i-h)=0}\\
\to{} m=\frac{\Sigma_i{x_iy_i}-\bar{x}\Sigma_i{y_i}}{\Sigma_i{x_i^2}-N\bar{x}^2}\\
\to{} h=\frac{1}{N}(\Sigma_i{y_i}-mN\bar{x})
\end{alignat}

که \bar{x}=\frac{\Sigma_i{x_i}}{N} میانگین x_iها و N تعداد نقاط می‌باشد.m و h بدست آمده، بهینه خط عبوری از این نقاط را می‌دهد.

از این روش می‌توانید برای درون‌یابی چند جمله‌ای‌های مرتبه بالاتر نیز استفاده کنید، کافی است که تعریف خطا (E) را مطابق با چند جمله‌ای که می خواهید عوض کرده بقیه محاسبات را همانطور ادامه داده و ضرایب را بدست آورید.

هندسه روش کمترین مربعات معمولی[ویرایش]

فرمول کلی یک برآورد خطی با معادله Y=\beta X+u به صورت \beta =(XX^\prime)^{-1} YX^\prime است. حال می‌خواهیم این رابطه و خصوصیات آن را به طور هندسی مورد بررسی قرار داده و ببینیم چه نتایجی برای ما در بر دارند. این بررسی نه تنها از دیدگاه تئوری دارای ارزش می‌باشد بلکه بسیاری از روابطی که از حل معادله‌های پیچیده جبری بدست می‌آیند را بااستفاده از اثبات‌های هندسی ساده کرده و فهم ارتباط این روابط را برای ما آسان می‌کند. فرض کنید مجموعه متغیرهای توضیح دهنده ما به صورت \{X_1,... ,X_k\} باشند می‌دانیم از هم مستقل هستند و بنابراین می‌توانند پایه‌هایی برای زیر فضای S(X) ازE^k به وجود آورند در حقیقت اگر \betaدلخواهی را در نظر بگیریم X\beta یک عضو دلخواه از زیر فضای ما خواهد بود و داریم:


X\beta =[X_1... X_k]
 \begin{bmatrix}
\beta_1 \\
\vdots \\
\beta_k
\end{bmatrix}
=X_1\beta_1+... +X_k\beta_k=\sum_{i=0}^{i=k}X_i\beta_i
در حقیقت می‌توانیم هر عضو Xرا به صورت \beta xبنویسیم و حتی را حت تر به صورت مختصات\begin{bmatrix}
\beta_1 \cdots \beta_k
\end{bmatrix}
بیان کنیم و به همین دلیل برآورد گر OLS(روش کمترین مربعات معمولی) در فضای S(X)قرار دارد یعنی X\hat \beta \in S(X) می‌دانیم که \hat \beta از معادله اساسی زیر محاسبه می‌شود:
X^\prime (Y-X\hat\beta)=0
با دقت در معادله بالا متوجه می‌شویم که این معادله دارای تفسیر بسیار ساده‌ای می‌باشد.X را در نظر بگیرید می‌دانیم کهX همان ماتریس متغیرهای توضیح دهنده‌است و هر ستون آن مربوط به یک متغیر توضیح دهنده می‌باشد که می‌توان معادله بالا را به صورت زیر نوشت \begin{bmatrix}
X_1^\prime \\
\vdots \\
X_k^\prime
\end{bmatrix}
(Y-X\hat \beta)=\langle X_i , Y-X\hat \beta \rangle
که همان ضرب داخلی متغیر توضیح دهنده iام در بردارهای خطا می‌باشد نکته‌ای که در اینجا وجود دارد این است که با توجه به معادله اساسی برای محاسبه برآوردگردر روش OLS متغیرهای بردار متغیرهای توضیح دهنده نسبت به متغیرهای خطای تخمین زده شده عمود می با شند یعنی Y-X\hat \beta وX_iها نسبت به هم عمودندو به این شرط اصطلاحاً شرط عمود بودن(orthogonality conditions)می‌گویند.
همان‌طور که در بالا گفتیم Y-X\beta همان متغیرهای خطای ما می‌باشند که با توجه به برآورد گر ما و روش برآورد به متغیرهای خطای تخمین زده شده(residuals)تبدیل می‌شوند در حقیقت اگر خطا را باu نمایش دهیم می‌توان آن را به صورت تابعی از \betaنمایش داد یعنی به صوت اختصاریu(\beta). آنچه ما در اینجا بدان علاقه مندیم بررسی عناصر خطا در زمانی می‌باشند که متغیر\beta با روش OLS تخمین زده شده‌است. ومی توانیم آن را به اختصار به صورت u(\hat \beta)=\hat uبنویسیم. ملاحظه کردید که این \hat uنسبت به همه متغیرهای توضیح دهنده عمود است و چون به تک تک پایه‌های فضای برداری ما عمود می‌باشد پس بر کل فضا عمود است و می‌توان آن را به صورت \hat u\bot S(X)نوشت؛ و از آن تیجه گرفت که هر عضو در این فضا عمود بر \hat uاست یعنی:

\langle X\beta ,\hat u\rangle=(X\beta)^\prime \hat u=\beta ^\prime X^ \prime \hat u=0
پس می‌توان از بحث بالا نتیجه گرفت که X\hat \beta که به آن اصطلاحاًبردار مقادیر برازانده شده(fitted values) می‌گویند در فضای S(X)قرار دارد و بر \hat \beta عمود است، یعنی شرط عمود بودن برای آن بر قرار است و از شرط عمود بودن می‌توان نتیجه گرفت که زاویه‌ای که این دو بردار با هم می‌سازند همان‌طور که شکل ۱ نشان می‌دهد قائمه‌است.

برای اینکه تا حدودی مفهوم عمود بودن(orthogonality)را تشریح کرده باشیم. فرض می‌کنیم دو متغیر توضیح دهنده داشته باشیم و به ترتیب آنهارا با X_1,X_2 نمایش می‌دهیم با توجه به شکل ۲ می‌بینیم که این دومتغیر فضایی را پدید می آورن که می‌توانیم آن را با S(X_1,X_2) نمایش دهیم وهمانطور که در شکل نشان می‌دهد این دو متغیر می‌توانند دارای طول‌های یکسان و زاویه‌های یکسان در بین آنه می‌باشند. همان‌طور که می‌بینید بردار متغیرهای برازانده شده (fitted values) در داخل فضای S(X_1,X_2) قرار گرفته و متغیر u نسبت به صفحهَ A(شکل۳)عمود است (شکل۴)و Y متغیرهای وابسته که از مجموع متغیرهای مستقل و متغیرهای خطا تشکیل می‌شوند در بیرون وقدری بالاتر ز صفحهA قرار می‌گیرند.

با توجه به توضیحاتی که در بالا داده شد می‌توان فهمید که چرا به روش برآورد مذکور کمترین مربعات گفته می‌شود در واقع با توجه به شکل‌های ۱ و۴ می‌توان فهمید که متغیرهای خطای تخمین زده شده\hat u دارای کمترین فاصله از متغیرهای برازانده شده(fitted values) تا فضای متغیرهای توضیح دهنده می‌باشد. یعنی \vert\vert \hat u \vert \vert اندازه تابع \vert\vert u(\beta) \vert\vert را کمینه می‌کند. اگر کمی دقت کنیم متوجه می‌شویم که\vert\vert u(\beta) \vert\vert ^2 همان مجموع مربعات خطاست SSR(\beta) و می‌دانیم که برآورد گر \hat \beta که u(\beta) را کمینه می‌کند\vert\vert u(\beta) \vert\vert ^2 را نیز کمینه می‌کند.
همان‌طور که در شکل۳ مشاهده می‌کنید شکل به ما صفحه را از بال نشان می‌دهد که دو بعدی است نقطه A در این صفحه به طور عمودی در زیر Y قرار گرفته‌است و با توجه به معادله Y=X\hat \beta + \hat u و اینکه برآورد از روش OLS انجام شده‌است. می‌توان نتیجه گرفت که بردار OA در صفحه همان بردار مقادیر برازانده شده(fitted values) می‌باشد یعنی بدار OA به طور هندسی نمایش دهنده X\hat \beta می‌باشد. والبته چون ستون‌های ماتریس X همان پایه‌های فضای ما می‌باشند می‌توان OA را با مختصات \hat \beta نمایش داد. از آنجا که بحث مختصات پیش کشیده شد می‌توان تفسیر جالبی را ارائه داد اینکه در حقیقت \hat \beta_i میزان مشارکت متغیر پایه X_i در تشکیل Y است. حال به شکل۴ نگاهی بیندازید همان‌طور که می‌بینید در شکل ۴ زاویه بین متغیرهای برازانده شده(fitted values)X\hat \betaو خطای تخمین زده شده(residuals)\hat u قائمه‌است، که با استفاده از آن می‌توانیم اساسی‌ترین معادله مربوط به OLS را بدست آوریم. یعنی:
\vert \vert Y \vert \vert ^2 =\vert\vert X\hat \beta \vert\vert^2 +\vert\vert \hat u \vert\vert^2
می‌دانیم \vert \vert Y \vert \vert^2 همان مجموع مربعات کل TSS و همان‌طور که پیش تر گفتیم \vert\vert X \hat \beta \vert\vert^2 مجموع مربعات متغیرهای توضیح دهندهESS و \vert\vert \hat u\vert\vert^2 مجموع مربعات خطای تخمین زده شدهRSS می‌باشد؛ و فرمول معروف TSS=ESS+RSS اثبات می‌شود، می‌توان رابطه‌های فوق را نیز با استفاده از رابطه زیر به صورتی دیگر نمایش داد:

Y^\prime Y=\hat \beta^\prime X^\prime X \hat \beta +(Y-X\hat \beta)^\prime (Y-X \hat \beta)
که نکته مهمی را بیان می‌کند تغییرات کل برابر است با تغییرات متغیرهای توضیح دهنده به علاوه تغییرات خطای تخمین زده شده.

جستارهای وابسته[ویرایش]

منابع[ویرایش]