مجموع کمترین مربعات

در آمار کاربردی، مجموع کمترین مربعات، نوعی از خطاهای رگرسیون متغیرها می‌باشد و به عبارتی دیگر یک تکنیک مدل‌سازی داده‌های کمترین مربعات بوده که در آن خطاهای مشاهده شده هم بر روی متغیرهای وابسته و هم بر روی متغیرهای مستقل به دست آوردن می‌شود. مجموع کمترین مربعات، تعمیمی از رگرسیون دمینک و نیز تعمیمی از رگرسیون متعامد می‌باشد و می‌تواند هم در مدل‌های خطی و هم در مدل‌های غیر خطی به کار برده شود.^[۱]^[۲]

تقریب مجموع کمترین مربعات داده‌ها به‌طور کلی معادل بهترین، در نُرم فروبنیوس، تقریب رتبه پایین ماتریس داده‌است.

مدل خطی[ویرایش]

در روش کمترین مربعات مدل‌سازی داده‌ها، تابع هدف، S ,

$S=\mathbf {r^{T}Wr} ,$

به حداقل می‌رسد، که r بردار باقیمانده‌ها و W یک ماتریس وزنی است. در کمترین مربعات خطی، مدل شامل معادلاتی است که در پارامترهای ظاهر شده در بردار پارامتر خطی هستند. β، بنابراین باقیمانده‌ها توسط داده می‌شوند.

$\mathbf {r=y-X{\boldsymbol {\beta }}} .$

m مشاهده در پارامترهای y و n در β با m > n وجود دارد. X یک ماتریس m × n است که عناصر آن ثابت یا توابع متغیرهای مستقل، x هستند. ماتریس وزن W در حالت ایده‌آل، معکوس ماتریس واریانس-کوواریانس است M_y از مشاهدات y فرض می‌شود که متغیرهای مستقل بدون خطا هستند. تخمین پارامترها با قرار دادن معادلات گرادیان بر روی صفر بدست می‌آیند که معادلات عادی را به دست می‌آورند.

${\displaystyle \mathbf {X^{T}WX{\boldsymbol {\beta }}=X^{T}Wy} .}$

اجازه دادن به خطاهای مشاهده در همه متغیرها[ویرایش]

حال، فرض کنید هر دو x و y مشروط به خطا، با ماتریس‌های واریانس کوواریانس مشاهده می‌شوند.M_x وM_y به ترتیب. در این مورد تابع هدف را می‌توان به صورت نوشتاری نوشت

${\displaystyle S=\mathbf {r_{x}^{T}M_{x}^{-1}r_{x}+r_{y}^{T}M_{y}^{-1}r_{y}} ,}$

جایی که r_x و r_y باقیمانده‌ها به ترتیب در x و y هستند. واضح است [توضیح بیشتر لازم است] این باقیمانده‌ها نمی‌توانند مستقل از یکدیگر باشند، اما باید توسط نوعی رابطه محدود شوند. نوشتن تابع مدل به صورت f(r_x , r_y , β) محدودیت‌ها با معادلات شرط m بیان می‌شوند.

${\displaystyle \mathbf {F=\Delta y-{\frac {\partial f}{\partial r_{x}}}r_{x}-{\frac {\partial f}{\partial r_{y}}}r_{y}-X\Delta {\boldsymbol {\beta }}=0} .}$

بنابراین، مسئله به حداقل رساندن تابع هدف تحت قیود m، با استفاده از ضریب لاگرانژ حل می‌شود. پس از انجام چند عملیات جبری نتیجه زیر حاصل می‌شود.

${\displaystyle \mathbf {X^{T}M^{-1}X\Delta {\boldsymbol {\beta }}=X^{T}M^{-1}\Delta y} ,}$

یا به صورت جایگزین می‌توان نوشت:

${\displaystyle \mathbf {X^{T}M^{-1}X{\boldsymbol {\beta }}=X^{T}M^{-1}y} }$

که M ماتریس واریانس کوواریانس نسبت به متغیرهای مستقل و وابسته است.

${\displaystyle \mathbf {M=K_{x}M_{x}K_{x}^{T}+K_{y}M_{y}K_{y}^{T};\ K_{x}=-{\frac {\partial f}{\partial r_{x}}},\ K_{y}=-{\frac {\partial f}{\partial r_{y}}}} .}$

مثال[ویرایش]

هنگامی که خطاهای داده‌ها همبستگی ندارند، همه ماتریس‌های M و W مورب هستند. سپس، مثال مربوط به برازش خط مستقیم را بررسی کنید.

${\displaystyle f(x_{i},\beta )=\alpha +\beta x_{i}}$

در این مورد:

$M_{ii}=\sigma _{y,i}^{2}+\beta ^{2}\sigma _{x,i}^{2}$

نشان می‌دهد که چگونه واریانس در نقطه یکم توسط واریانس‌های هر دو متغیر مستقل و وابسته و مدل مورد استفاده برای برازش داده‌ها تعیین می‌شود. این عبارت ممکن است با توجه به اینکه پارامتر بتا شیب خط است تعمیم یابد.

$M_{ii}=\sigma _{y,i}^{2}+\left({\frac {dy}{dx}}\right)_{i}^{2}\sigma _{x,i}^{2}$

عبارتی از این نوع در برازش داده‌های تیتراسیون pH استفاده می‌شود که در آن یک خطای کوچک در x به خطای بزرگ در y هنگامی که شیب بزرگ است تفسیر می‌شود.

دیدگاه جبری[ویرایش]

همان‌طور که در سال ۱۹۸۰ توسط Golub و Van Loan نشان داده شد، مسئله TLS به‌طور کلی راه حلی ندارد.[۴] موارد زیر مورد ساده‌ای را در نظر می‌گیرند که در آن یک راه‌حل منحصربه‌فرد بدون ایجاد فرضیات خاصی وجود دارد.

محاسبه TLS با استفاده از تجزیه مقدار منفرد (SVD) در متون استاندارد توضیح داده شده‌است.[۵] می‌توانیم معادله را حل کنیم.

$XB\approx Y$

برای B که در آن X m-by-n و Y m-by-k است.

یعنی ما به دنبال یافتن B هستیم که ماتریس‌های خطا E و F را به ترتیب برای X و Y به حداقل می‌رساند. به این معنا که،

${\displaystyle \mathrm {argmin} _{B,E,F}\|[E\;F]\|_{F},\qquad (X+E)B=Y+F}$

که ماتریس تقویت شده با E و F در کنار هم است و $\|\cdot \|_{F}$ نُرم Frobenius است، که جذر مجموع مجذورات همه ورودی‌های یک ماتریس و به همین ترتیب ریشه دوم مجموع مربع‌های طول سطرها یا ستون‌های ماتریس است.

این را می‌توان به صورت زیر بازنویسی کرد:

${\displaystyle [(X+E)\;(Y+F)]{\begin{bmatrix}B\\-I_{k}\end{bmatrix}}=0.}$

که I_k ماتریس همانی K*K است.

سپس هدف این است که $[E\;F]$ را پیدا کنیم که مرتبه $[X\;Y]$ را تا k کاهش دهیم.

تعریف می‌کنیم که تجزیه مقدار تکین ماتریس تقویت شده $[X\;Y]$ باشد.

$[X\;Y]=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&\Sigma _{Y}\end{bmatrix}}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&\Sigma _{Y}\end{bmatrix}}{\begin{bmatrix}V_{XX}^{*}&V_{YX}^{*}\\V_{XY}^{*}&V_{YY}^{*}\end{bmatrix}}$

که در آن V به بلوک‌های مربوط به شکل X و Y تقسیم می‌شود.

با استفاده از قضیه اکارت-یانگ، تقریبی که نُرم خطا را به حداقل می‌رساند، به گونه‌ای است که ماتریس‌های U و V بدون تغییر باقی می‌مانند، در حالی که کوچک‌ترین مقادیر مفرد k با صفر جایگزین می‌شوند؛ یعنی:

$[(X+E)\;(Y+F)]=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&0_{k\times k}\end{bmatrix}}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}$

سپس با خطی فرض کردن:

${\displaystyle [E\;F]=-[U_{X}\;U_{Y}]{\begin{bmatrix}0_{n\times n}&0\\0&\Sigma _{Y}\end{bmatrix}}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}.}$

سپس می‌توانیم بلوک‌ها را از ماتریس‌های U و Σ حذف کنیم و آن را ساده کنیم:

${\displaystyle [E\;F]=-U_{Y}\Sigma _{Y}{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}^{*}=-[X\;Y]{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}^{*}.}$

این E و F را فراهم می‌کند تا:

${\displaystyle [(X+E)\;(Y+F)]{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}=0.}$

حال اگر $V_{YY}$ غیر مفرد باشد، که همیشه اینطور نیست (توجه داشته باشید که رفتار TLS زمانی که $V_{YY}$ مفرد است، هنوز به خوبی درک نشده‌است)، پس می‌توانیم هر دو طرف را در $-V_{YY}^{-1}$ ضرب کنید تا بلوک پایینی ماتریس سمت راست را به صورت ماتریس همانی منفی بدست آورید.

$[(X+E)\;(Y+F)]{\begin{bmatrix}-V_{XY}V_{YY}^{-1}\\-V_{YY}V_{YY}^{-1}\end{bmatrix}}=[(X+E)\;(Y+F)]{\begin{bmatrix}B\\-I_{k}\end{bmatrix}}=0,$

و همچنین:

$B=-V_{XY}V_{YY}^{-1}.$

در زیر پیاده‌سازی ساده GNU Octave آمده‌است:

function B = tls(X, Y)

[m n]   = size(X);             % n is the width of X (X is m by n)
Z       = [X Y];               % Z is X augmented with Y.
[U S V] = svd(Z, 0);           % find the SVD of Z.
VXY     = V(1:n, 1+n:end);     % Take the block of V consisting of the first n rows and the n+1 to last column
VYY     = V(1+n:end, 1+n:end); % Take the bottom-right block of V.
B       = -VXY / VYY;

end

روشی که در بالا برای حل مسئله توضیح داده شد، که مستلزم آن است که ماتریس $V_{YY}$ غیرمفرد باشد، می‌تواند توسط به اصطلاح الگوریتم TLS کلاسیک کمی بسط یابد.

محاسبات[ویرایش]

اجرای استاندارد الگوریتم TLS کلاسیک از طریق Netlib در دسترس است، همچنین ببینید.[۸][۹] همه پیاده‌سازی‌های مدرن مبتنی بر، به‌عنوان مثال، بر اساس حل دنباله‌ای از مسائل حداقل مربعات معمولی، ماتریس B را تقریب می‌کنند (که در ادبیات با X مشخص شده‌است)، همان‌طور که ون هافل و واندوال معرفی کردند. شایان ذکر است که این B در بسیاری از موارد راه حل TLS نیست.

مدل غیرخطی[ویرایش]

برای سیستم‌های غیرخطی، استدلال مشابه نشان می‌دهد که معادلات عادی برای یک چرخه تکرار را می‌توان به صورت نوشتاری نوشت.

${\displaystyle \mathbf {J^{T}M^{-1}J\Delta {\boldsymbol {\beta }}=J^{T}M^{-1}\Delta y} ,}$

که J ماتریس جاکوبین است.

تفسیر هندسی[ویرایش]

هنگامی که متغیر مستقل بدون خطا باشد، باقیمانده نشان دهنده فاصله «عمودی» بین نقطه داده مشاهده شده و منحنی (یا سطح) متناسب است. در مجموع حداقل مربعات یک باقیمانده نشان دهنده فاصله بین یک نقطه داده و منحنی متناسب اندازه‌گیری شده در امتداد برخی جهت‌ها است. در واقع، اگر هر دو متغیر در یک واحد اندازه‌گیری شوند و خطاهای هر دو متغیر یکسان باشد، باقیمانده نشان دهنده کوتاه‌ترین فاصله بین نقطه داده و منحنی متناسب است، یعنی بردار باقیمانده عمود بر مماس است. منحنی. به همین دلیل، گاهی اوقات این نوع رگرسیون را رگرسیون اقلیدسی دو بعدی یا رگرسیون متعامد می‌نامند.

روش‌های مقیاس ثابت[ویرایش]

اگر متغیرها در واحدهای یکسان اندازه‌گیری نشوند، مشکل جدی ایجاد می‌شود. ابتدا اندازه‌گیری فاصله بین نقطه داده و خط را در نظر بگیرید: واحدهای اندازه‌گیری این فاصله چیست؟ اگر اندازه‌گیری فاصله را بر اساس قضیه فیثاغورث در نظر بگیریم، واضح است که مقادیر اندازه‌گیری شده در واحدهای مختلف را اضافه خواهیم کرد که بی‌معنی است. ثانیاً، اگر یکی از متغیرها را مجدداً مقیاس‌بندی کنیم، به عنوان مثال، اندازه‌گیری را بر حسب گرم به جای کیلوگرم، در نهایت به نتایج متفاوتی خواهیم رسید (یک خط متفاوت). برای جلوگیری از این مشکلات، گاهی اوقات پیشنهاد می‌شود که به متغیرهای بدون بعد تبدیل شویم - این ممکن است نرمال سازی یا استانداردسازی نامیده شود. با این حال، روش‌های مختلفی برای انجام این کار وجود دارد که منجر به مدل‌های برازش شده می‌شود که معادل یکدیگر نیستند. یک روش عادی سازی با دقت اندازه‌گیری شناخته‌شده (یا برآوردی) است و در نتیجه فاصله Mahalanobis از نقاط تا خط را به حداقل می‌رساند و راه حل حداکثر احتمال را ارائه می‌دهد؛ [نیازمند منبع] دقت‌های ناشناخته را می‌توان از طریق تجزیه و تحلیل واریانس یافت.

به‌طور خلاصه، مجموع کمترین مربعات دارای خاصیت عدم تغییر واحدها - یعنی. مقیاس ثابت نیست. برای یک مدل معنادار، ما نیاز داریم که این ویژگی حفظ شود. یک راه رو به جلو این است که بدانیم باقیمانده‌ها (فاصله‌ها) اندازه‌گیری شده در واحدهای مختلف را می‌توان با هم ترکیب کرد اگر از ضرب به جای جمع استفاده شود. اتصال یک خط را در نظر بگیرید: برای هر نقطه داده، حاصل ضرب باقیمانده‌های عمودی و افقی برابر است با دو برابر مساحت مثلثی که توسط خطوط باقیمانده و خط برازش تشکیل شده‌است. خطی را انتخاب می‌کنیم که مجموع این نواحی را به حداقل می‌رساند. پل ساموئلسون برنده جایزه نوبل در سال ۱۹۴۲ ثابت کرد که در دو بعد، تنها خطی است که فقط از نظر نسبت انحرافات استاندارد و ضریب همبستگی قابل بیان است که (۱) وقتی مشاهدات روی یک خط مستقیم قرار می‌گیرند با معادله صحیح مطابقت دارد. ۲) عدم تغییر مقیاس را نشان می‌دهد، و (۳) عدم تغییر را تحت مبادله متغیرها نشان می‌دهد.[۱۳] این راه حل در رشته‌های مختلف دوباره کشف شده‌است و به‌طور مختلف به عنوان محور اصلی استاندارد شده شناخته می‌شود (Ricker 1975، وارتون و همکاران، ۲۰۰۶)، [۱۴] [۱۵] محور اصلی کاهش یافته، رابطه عملکردی میانگین هندسی (دریپر و اسمیت، ۱۹۹۸). [۱۶] رگرسیون حداقل ضرایب، رگرسیون مورب، خط همبستگی آلی، و خط کمترین مساحت (توفالیس، ۲۰۰۲).[۱۷] توفالیس (۲۰۱۵) [۱۸] این رویکرد را برای مقابله با متغیرهای متعدد گسترش داده‌است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

↑ J. Weisbach: Bestimmung des Hauptstreichens und Hauptfallens von Lagerstätten. In: Archiv für Mineralogie, Geognosie, Bergbau und Hüttenkunde. 14, p. 159–174.
↑ D. Stoyan, T. Morel: Julius Weisbach's pioneering contribution to orthogonal linear regression. In: Historia Mathematica. 45, p. 75–84.

[1] J. Weisbach: Bestimmung des Hauptstreichens und Hauptfallens von Lagerstätten. In: Archiv für Mineralogie, Geognosie, Bergbau und Hüttenkunde. 14, p. 159–174.

[2] D. Stoyan, T. Morel: Julius Weisbach's pioneering contribution to orthogonal linear regression. In: Historia Mathematica. 45, p. 75–84.

[۱]

[۲]