مجموع کمترین مربعات
در آمار کاربردی، مجموع کمترین مربعات، نوعی از خطاهای رگرسیون متغیرها میباشد و به عبارتی دیگر یک تکنیک مدلسازی دادههای کمترین مربعات بوده که در آن خطاهای مشاهده شده هم بر روی متغیرهای وابسته و هم بر روی متغیرهای مستقل به دست آوردن میشود. مجموع کمترین مربعات، تعمیمی از رگرسیون دمینک و نیز تعمیمی از رگرسیون متعامد میباشد و میتواند هم در مدلهای خطی و هم در مدلهای غیر خطی به کار برده شود.[۱][۲]
تقریب مجموع کمترین مربعات دادهها بهطور کلی معادل بهترین، در نُرم فروبنیوس، تقریب رتبه پایین ماتریس دادهاست.
مدل خطی[ویرایش]
در روش کمترین مربعات مدلسازی دادهها، تابع هدف، S ,
به حداقل میرسد، که r بردار باقیماندهها و W یک ماتریس وزنی است. در کمترین مربعات خطی، مدل شامل معادلاتی است که در پارامترهای ظاهر شده در بردار پارامتر خطی هستند. β، بنابراین باقیماندهها توسط داده میشوند.
m مشاهده در پارامترهای y و n در β با m > n وجود دارد. X یک ماتریس m × n است که عناصر آن ثابت یا توابع متغیرهای مستقل، x هستند. ماتریس وزن W در حالت ایدهآل، معکوس ماتریس واریانس-کوواریانس است My از مشاهدات y فرض میشود که متغیرهای مستقل بدون خطا هستند. تخمین پارامترها با قرار دادن معادلات گرادیان بر روی صفر بدست میآیند که معادلات عادی را به دست میآورند.
اجازه دادن به خطاهای مشاهده در همه متغیرها[ویرایش]
حال، فرض کنید هر دو x و y مشروط به خطا، با ماتریسهای واریانس کوواریانس مشاهده میشوند.Mx وMy به ترتیب. در این مورد تابع هدف را میتوان به صورت نوشتاری نوشت
جایی که rx و ry باقیماندهها به ترتیب در x و y هستند. واضح است [توضیح بیشتر لازم است] این باقیماندهها نمیتوانند مستقل از یکدیگر باشند، اما باید توسط نوعی رابطه محدود شوند. نوشتن تابع مدل به صورت f(rx , ry , β) محدودیتها با معادلات شرط m بیان میشوند.
بنابراین، مسئله به حداقل رساندن تابع هدف تحت قیود m، با استفاده از ضریب لاگرانژ حل میشود. پس از انجام چند عملیات جبری نتیجه زیر حاصل میشود.
یا به صورت جایگزین میتوان نوشت:
که M ماتریس واریانس کوواریانس نسبت به متغیرهای مستقل و وابسته است.
مثال[ویرایش]
هنگامی که خطاهای دادهها همبستگی ندارند، همه ماتریسهای M و W مورب هستند. سپس، مثال مربوط به برازش خط مستقیم را بررسی کنید.
در این مورد:
نشان میدهد که چگونه واریانس در نقطه یکم توسط واریانسهای هر دو متغیر مستقل و وابسته و مدل مورد استفاده برای برازش دادهها تعیین میشود. این عبارت ممکن است با توجه به اینکه پارامتر بتا شیب خط است تعمیم یابد.
عبارتی از این نوع در برازش دادههای تیتراسیون pH استفاده میشود که در آن یک خطای کوچک در x به خطای بزرگ در y هنگامی که شیب بزرگ است تفسیر میشود.
دیدگاه جبری[ویرایش]
همانطور که در سال ۱۹۸۰ توسط Golub و Van Loan نشان داده شد، مسئله TLS بهطور کلی راه حلی ندارد.[۴] موارد زیر مورد سادهای را در نظر میگیرند که در آن یک راهحل منحصربهفرد بدون ایجاد فرضیات خاصی وجود دارد.
محاسبه TLS با استفاده از تجزیه مقدار منفرد (SVD) در متون استاندارد توضیح داده شدهاست.[۵] میتوانیم معادله را حل کنیم.
برای B که در آن X m-by-n و Y m-by-k است.
یعنی ما به دنبال یافتن B هستیم که ماتریسهای خطا E و F را به ترتیب برای X و Y به حداقل میرساند. به این معنا که،
که ماتریس تقویت شده با E و F در کنار هم است و نُرم Frobenius است، که جذر مجموع مجذورات همه ورودیهای یک ماتریس و به همین ترتیب ریشه دوم مجموع مربعهای طول سطرها یا ستونهای ماتریس است.
این را میتوان به صورت زیر بازنویسی کرد:
که Ik ماتریس همانی K*K است.
سپس هدف این است که را پیدا کنیم که مرتبه را تا k کاهش دهیم.
تعریف میکنیم که تجزیه مقدار تکین ماتریس تقویت شده باشد.
که در آن V به بلوکهای مربوط به شکل X و Y تقسیم میشود.
با استفاده از قضیه اکارت-یانگ، تقریبی که نُرم خطا را به حداقل میرساند، به گونهای است که ماتریسهای U و V بدون تغییر باقی میمانند، در حالی که کوچکترین مقادیر مفرد k با صفر جایگزین میشوند؛ یعنی:
سپس با خطی فرض کردن:
سپس میتوانیم بلوکها را از ماتریسهای U و Σ حذف کنیم و آن را ساده کنیم:
این E و F را فراهم میکند تا:
حال اگر غیر مفرد باشد، که همیشه اینطور نیست (توجه داشته باشید که رفتار TLS زمانی که مفرد است، هنوز به خوبی درک نشدهاست)، پس میتوانیم هر دو طرف را در ضرب کنید تا بلوک پایینی ماتریس سمت راست را به صورت ماتریس همانی منفی بدست آورید.
و همچنین:
در زیر پیادهسازی ساده GNU Octave آمدهاست:
function B = tls(X, Y)
[m n] = size(X); % n is the width of X (X is m by n)
Z = [X Y]; % Z is X augmented with Y.
[U S V] = svd(Z, 0); % find the SVD of Z.
VXY = V(1:n, 1+n:end); % Take the block of V consisting of the first n rows and the n+1 to last column
VYY = V(1+n:end, 1+n:end); % Take the bottom-right block of V.
B = -VXY / VYY;
end
روشی که در بالا برای حل مسئله توضیح داده شد، که مستلزم آن است که ماتریس غیرمفرد باشد، میتواند توسط به اصطلاح الگوریتم TLS کلاسیک کمی بسط یابد.
محاسبات[ویرایش]
اجرای استاندارد الگوریتم TLS کلاسیک از طریق Netlib در دسترس است، همچنین ببینید.[۸][۹] همه پیادهسازیهای مدرن مبتنی بر، بهعنوان مثال، بر اساس حل دنبالهای از مسائل حداقل مربعات معمولی، ماتریس B را تقریب میکنند (که در ادبیات با X مشخص شدهاست)، همانطور که ون هافل و واندوال معرفی کردند. شایان ذکر است که این B در بسیاری از موارد راه حل TLS نیست.
مدل غیرخطی[ویرایش]
برای سیستمهای غیرخطی، استدلال مشابه نشان میدهد که معادلات عادی برای یک چرخه تکرار را میتوان به صورت نوشتاری نوشت.
که J ماتریس جاکوبین است.
تفسیر هندسی[ویرایش]
هنگامی که متغیر مستقل بدون خطا باشد، باقیمانده نشان دهنده فاصله «عمودی» بین نقطه داده مشاهده شده و منحنی (یا سطح) متناسب است. در مجموع حداقل مربعات یک باقیمانده نشان دهنده فاصله بین یک نقطه داده و منحنی متناسب اندازهگیری شده در امتداد برخی جهتها است. در واقع، اگر هر دو متغیر در یک واحد اندازهگیری شوند و خطاهای هر دو متغیر یکسان باشد، باقیمانده نشان دهنده کوتاهترین فاصله بین نقطه داده و منحنی متناسب است، یعنی بردار باقیمانده عمود بر مماس است. منحنی. به همین دلیل، گاهی اوقات این نوع رگرسیون را رگرسیون اقلیدسی دو بعدی یا رگرسیون متعامد مینامند.
روشهای مقیاس ثابت[ویرایش]
اگر متغیرها در واحدهای یکسان اندازهگیری نشوند، مشکل جدی ایجاد میشود. ابتدا اندازهگیری فاصله بین نقطه داده و خط را در نظر بگیرید: واحدهای اندازهگیری این فاصله چیست؟ اگر اندازهگیری فاصله را بر اساس قضیه فیثاغورث در نظر بگیریم، واضح است که مقادیر اندازهگیری شده در واحدهای مختلف را اضافه خواهیم کرد که بیمعنی است. ثانیاً، اگر یکی از متغیرها را مجدداً مقیاسبندی کنیم، به عنوان مثال، اندازهگیری را بر حسب گرم به جای کیلوگرم، در نهایت به نتایج متفاوتی خواهیم رسید (یک خط متفاوت). برای جلوگیری از این مشکلات، گاهی اوقات پیشنهاد میشود که به متغیرهای بدون بعد تبدیل شویم - این ممکن است نرمال سازی یا استانداردسازی نامیده شود. با این حال، روشهای مختلفی برای انجام این کار وجود دارد که منجر به مدلهای برازش شده میشود که معادل یکدیگر نیستند. یک روش عادی سازی با دقت اندازهگیری شناختهشده (یا برآوردی) است و در نتیجه فاصله Mahalanobis از نقاط تا خط را به حداقل میرساند و راه حل حداکثر احتمال را ارائه میدهد؛ [نیازمند منبع] دقتهای ناشناخته را میتوان از طریق تجزیه و تحلیل واریانس یافت.
بهطور خلاصه، مجموع کمترین مربعات دارای خاصیت عدم تغییر واحدها - یعنی. مقیاس ثابت نیست. برای یک مدل معنادار، ما نیاز داریم که این ویژگی حفظ شود. یک راه رو به جلو این است که بدانیم باقیماندهها (فاصلهها) اندازهگیری شده در واحدهای مختلف را میتوان با هم ترکیب کرد اگر از ضرب به جای جمع استفاده شود. اتصال یک خط را در نظر بگیرید: برای هر نقطه داده، حاصل ضرب باقیماندههای عمودی و افقی برابر است با دو برابر مساحت مثلثی که توسط خطوط باقیمانده و خط برازش تشکیل شدهاست. خطی را انتخاب میکنیم که مجموع این نواحی را به حداقل میرساند. پل ساموئلسون برنده جایزه نوبل در سال ۱۹۴۲ ثابت کرد که در دو بعد، تنها خطی است که فقط از نظر نسبت انحرافات استاندارد و ضریب همبستگی قابل بیان است که (۱) وقتی مشاهدات روی یک خط مستقیم قرار میگیرند با معادله صحیح مطابقت دارد. ۲) عدم تغییر مقیاس را نشان میدهد، و (۳) عدم تغییر را تحت مبادله متغیرها نشان میدهد.[۱۳] این راه حل در رشتههای مختلف دوباره کشف شدهاست و بهطور مختلف به عنوان محور اصلی استاندارد شده شناخته میشود (Ricker 1975، وارتون و همکاران، ۲۰۰۶)، [۱۴] [۱۵] محور اصلی کاهش یافته، رابطه عملکردی میانگین هندسی (دریپر و اسمیت، ۱۹۹۸). [۱۶] رگرسیون حداقل ضرایب، رگرسیون مورب، خط همبستگی آلی، و خط کمترین مساحت (توفالیس، ۲۰۰۲).[۱۷] توفالیس (۲۰۱۵) [۱۸] این رویکرد را برای مقابله با متغیرهای متعدد گسترش دادهاست.