رگرسیون محلی

از ویکی‌پدیا، دانشنامهٔ آزاد

رگرسیون محلی یا رگرسیون چند جمله ای محلی [۱] یا رگرسیون متحرک نام های متداول این روش هستند ، که در واقع [۲] تعمیم روش های میانگین متحرک و رگرسیون چند جمله ای است. [۳] متداول‌ترین روش‌های که از آن استفاده می شود ، برای هموارسازی نمودار پراکنده توسعه داده شد، LOESS ( هموارسازی پراکنده تخمینی محلی ) و LOWESS ( هموارسازی پراکنده با وزن محلی )، هر دو به صورت مقابل تلفظ می‌شوند ‎/ˈlɛs/‎ . این دو روش به روش رگرسیون ناپارامتریک مرتبط هستند که در واقع چند مدل‌ رگرسیون چندگانه را با هم ترکیب کرد و به وسیله روش k -نزدیک‌ترین همسایه مقدار را حساب می کند. LOESS در بعضی از شاخه ها معمولاً به عنوان فیلتر Savitzky-Golay [۴] [۵] ( 15 سال قبل از LOESS ارائه شده ) شناخته می شود.


LOESS و LOWESS بر اساس روش‌های "کلاسیک آماری" مانند رگرسیون خطی و غیر خطی با حداقل مربعات خطا طبقه بندی می شود. این روش ها در موقعیت‌هایی مورد استفاده واقع می شوند که در آن روش‌های کلاسیک به خوبی عمل نمی‌کنند یا نمی‌توانند به طور موثر بدون کار اضافی مورد استفاده واقع شوند . LOESS از ترکیب سادگی رگرسیون خطی با انعطاف پذیری رگرسیون غیرخطی بوجود می آید . این کار را با ایجاد مدل‌های ساده برای زیرمجموعه‌های محلی از داده‌ها انجام می‌دهد تا بتواند تابعی را تعریف کند که تغییرات در هربخش از داده‌ها را نقطه به نقطه توصیف کند. در واقع، یکی از جذابیت‌های اصلی این روش این است که تحلیلگر داده‌ نیازی به ایجاد یک تابع سراسری برای تطبیق یک مدل با داده‌ها ندارد و فقط نیاز به تطبیق مدل برای هر زیر قسمت از داده‌ها می باشد.


برای بدست آوردن این ویژگی ، هزینه محاسباتی افزایش می یابد. از آنجایی که از نظر محاسباتی بسیار سنگین است، استفاده از LOESS در دورانی که رگرسیون با حداقل مربعات خطا مورد استفاده قرار می گرفت ، تقریبا غیرممکن بود. اکثر روش های مدرن از نظر مدل سازی فرآیند مشابه LOESS هستند. این روش ها آگاهانه طراحی شده اند تا از توانایی محاسباتی فعلی ما حداکثر استفاده ممکن را برای دستیابی به اهدافی کنند که به وسیله رویکردهای سنتی به راحتی قابل دست نبود.


منحنی صاف شده ای که از طریق مجموعه ای از نقاط داده به وسیله این روش آماری به دست می آید ، منحنی هزینه نامیده می شود معمولا این عنوان زمانی که مقدار هموار شده توسط یک رگرسیون خطی با حداقل خطا مربعات بر روی گستره مقادیر متغیر معیار پراکندگی محور y بدست می آید ، بیان می شود. هنگامی مقدار هموار شده هر نقطه به وسیله رگرسیون خطی با حداقل خطا مربعات در طول بازه ای از مقادیر داده می شود را به عنوان یک منحنی حداقلی شناخته می شود. با این حال، برخی از مراجع حداقلی و هزینه را از لحاظ کاربرد یکسان می دانند. [۶] [۷]

تعریف مدل[ویرایش]

در سال 1964، Savitsky و Golay روشی معادل LOESS را پیشنهاد کردند که معمولاً به نام فیلتر Savitzky-Golay در دنیا شناخته می شود. ویلیام اس. کلیولند این روش را در سال 1979 دوباره ایجاد کرد و نامی جدیدبرای آن انتخاب کرد . این روش بعد ها توسط کلیولند و سوزان جی دولین (1988) توسعه یافت. LOWESS همچنین به عنوان رگرسیون چند جمله ای با وزن محلی نیز در دنیا معروف است.


در هر نقطه در محدوده مجموعه داده ، یک چند جمله ای از درجه پایین به هر زیرمجموعه ای از داده ها با مقادیر متغیر توضیحی نزدیک به نقطه ای که جواب مورد انتظار ما قرار است تخمین زده شوده ، گماشت می شود. چند جمله ای با استفاده از حداقل مربعات خطا وزنی گماشت می شود که به این صورت که به نقاط نزدیک به نقطه ای که پاسخ آن تخمین زده می شود وزن (اهمیت) بیشتری می دهد و به نقاط دورتر وزن کمتری می دهد. سپس مقدار تابع رگرسیون برای نقطه با محاسبه چند جمله ای محلی به وسیله مقادیر متغیر توضیحی برای آن نقطه داده به دست می آید. تناسب LOESS پس از محاسبه مقادیر تابع رگرسیون برای هر یک از آن ها کامل می شود نقاط داده بسیاری از پارامترهای این روش مانند درجه چند جمله ای ، وزن ها و ... قابل تغییر هستند و با توجه به نیاز می توان مقادیر مختلف برای آن انتخاب کرد.

زیرمجموعه های محلی داده ها[ویرایش]

زیر مجموعه داده های مورد استفاده برای هر حداقل مربعات وزنی که در الگوریتم مور استفاده LOESS قرار می گیرد توسط الگوریتم نزدیکترین همسایه محاسبه می شود."پهنای باند" یا " پارامتر هموارسازی" پارامتر است که مشخص می کند چه درصد از داده ها در هر چند جمله ای محلی استفاده می شود. پارامتر هموارسازی که با علامت بیان می شود ، مشخص می کند که چه کسری از تعداد کل n داده ها در هر چند جمله محلی استفاده شود. بنابراین، زیرمجموعه داده‌های مورد استفاده در هر برازش حداقل مربعات خطا وزنی شامل (به بزرگ‌ترین عدد صحیح بعدی گرد شده) از داده ها می شود که مقادیر متغیرهای توضیحی آنها به نقطه‌ای که قرار است پاسخ تخمین زده شود کم ترین فاصله را داشته باشند. [۸]


اگر که یک چند جمله ای از درجه k باشد، حداقل به K+1 نقطه برای محاسبه نیاز دارد. مقدار پارامتر هموارسازی ( ) باید بین و 1باشد تا بتواند که تعداد نقطه مورد نیاز ما را برای هر چند جمله ای فراهم کند. نشان دهنده درجه چند جمله ای محلی است.


را پارامتر هموارسازی می نامیم ، زیرا میزان انعطاف پذیری تابع LOESS را برای ما کنترل می کند. هر چه مقدار بیش تر باشد ، جواب حاصل تابع هموار تر خواهد بود و میزان تغییر شیب آن کم تر می شود. استفاده از یک مقدار بسیار کوچک از پارامتر هموارسازی مطلوب نیست، اما، تابع رگرسیون خطای تصادفی کمتری می گیرد.


درجه چند جمله ای های محلی[ویرایش]

چند جمله ای های محلی که برای نگاشت نقاط مورد استفاده قرار می گیرند معمولا از درجه یک یا دو هستند. یعنی یا به صورت خطی یا درجه دوم هستند. استفاده از یک چند جمله از درجه صفر ، LOESS را به میانگین متحرک وزنی تبدیل می کند. می توان از چند جمله ای های با درجه بالاتر استفاده کرد، اما مدل های حاصل از این درجات مطابق با اصول LOESS نیستند. LOESS مبتنی بر این ایده است که هر تابعی را می توان در یک محله کوچک با یک چند جمله ای مرتبه پایین به دقت خوبی تخمین زد و مدل های ساده ایجاد شده بتوانند توزیع داده ها را برای ما نشان دهند. چند جمله‌ای‌های از درجه بالا باعث رخ داد بیش‌برازش می شوند و باعث کاهش دقت می شوند.

تابع وزن[ویرایش]

همانطور که در بالا ذکر شده است، تابع بیشترین وزن را به نقاط نزدیک به نقطه تخمین و کمترین وزن را به نقاط ای که دورتر هستند می دهد. استفاده از وزن ها بر این ایده استوار است که نقاط نزدیک به یکدیگر در فضای متغیر توضیحی بیشتر از نقاطی که از هم دورتر هستند ، به یک دیگر مرتبط هستند. بر اساس این اصول ، نقاطی که از مدل محلی پیروی می کنند، بیشترین تأثیر را بر تخمین پارامترهای مدل محلی دارند.


تابع محاسبه وزن سنتی برای LOESS ، تابع وزن سه مکعبی است که در زیر فرمول آن آمده است.

d فاصله یک نقطه معین از نقطه روی منحنی که از تابع بدست می آید است ، که مقدار آن در محدوده 0 تا 1 قرار دارد [۹]

اما می توان از هر تابع دیگری که شرایط ذکر شده در کلیولند (1979) را برآورده کند نیز می توان به عنوان تابع وزنی استفاده کرد. وزن برای یک نقطه خاص در هر زیرمجموعه محلی از داده ها به وسیله محاسبه تابع وزن در فاصله بین آن نقطه و نقطه تخمین به مورد استفاده قرار می گیرد به صورتی که حداکثر فاصله مطلق از تمام نقاط زیر مجموعه داده را برابر یک و بقیه فاصله ها را نسبت به آن حساب می کنیم.

مدل رگرسیون خطی با متریک در فضای که به دو پارامتر وابسته است ، در نظر بگیرید . فرض کنید که فرضیه خطی بر اساس ورودی با پارامتر است و فضای ورودی به تعمیم می دهیم ، مانند و تابع هزینه به صورت زیر تعریف شده است.

یک ماتریس از ضرایب حقیقی می باشد ، و زیرنویس i بردارهای ورودی و خروجی را از یک مجموعه آموزشی حرکت می کند. از آنجا که یک متریک است و یک ماتریس متقارن و یک ماتریس معین است ، بنابراین ماتریس متقارن دیگری مانند وجود دارد که که بتوان به صورت آن را نوشت. تابع هزینه بالا به وسیله استفاده اثر می توان به صورت معادله جدید در آورد :

.

به وسیله تغییر ساختار به ستون های در ماتریس و بهستون های ماتریس ، می توان تابع هزینه را به فرم زیر نوشته :



مارتیس یک ماتریس مربع است که اعضای آن هستند .با مشتق گرفتن نسبت به و صفر قرار دادن معادله به فرمول زیر می رسیم.



با فرض اینکه ماتریس مربعی یک ماتریس غیر منفرد تابع هزینه زمانی به حداقل مقدار می رسد:



یک انتخداب متداول برای ، می تواند وزن گاوسی است:


مزایای[ویرایش]

یکی از بزرگترین مزیت LOESS نسبت به بسیاری از روش‌های دیگر این است که فرآیند نگاشت داده ها به یک مدل با مشخصات یک تابع آغاز نمی‌شود. در عوض، فرد تحلیلگر فقط می تواند یک مقدار برای پارامتر هموارسازی ویک درجه برای چند جمله ای محلی را مشخص کند. علاوه بر این، LOESS بسیار انعطاف پذیر است و آن را برای مدل‌سازی فرآیندهای پیچیده که هیچ مدل تئوری برای آن‌ها وهنوز به وجود نیامده است، ایده‌آل می‌کند. این دو مزیت، همراه با سادگی ، LOESS را به یکی از جذاب‌ترین روش‌های رگرسیون مدرن برای کاربردهایی که با چارچوب کلی رگرسیون حداقل مربعات مطابقت نداشته باشد تبدیل کرده است.


LOESS بیشتر مزایایی مدل های خطی با حداقل مربعات خطا را به همراه دارد. مهمترین آنها تئوری محاسبه عدم قطعیت برای پیش بینی و کالیبراسیون است. بسیاری از آزمون‌ها و روش‌های مورد استفاده برای اعتبارسنجی مدل‌های حداقل مربعات خطا را می‌توان برای مدل‌ LOESS نیز تعمیم داد.[نیازمند منبع] .

معایب[ویرایش]

LOESS نسبت به سایر روش‌های حداقل مربعات خطا ساتفاده کمتری از داده ها می کند . برای تولید مدل‌های خوب، به مجموعه‌های داده نسبتاً بزرگ و با نمونه‌گیری متراکم نیاز دارد. دلیل این رخ داد این است که ، LOESS هنگام نگاشت محلی به داده محلی وابسته است. بنابراین، LOESS تجزیه و تحلیل داده های پیچیده کمتری را در ازای هزینه های آزمایشی بیشتر فراهم می کند. [۱۰]


یکی دیگر از معایب LOESS این است که تابع رگرسیون تولید شده را نمی توان به وسیله یک فرمول ریاضی نشان داد. این رخ داد باعث می شود تحلیل آن سخت تر شود. برای درک و انتقال اطلاعات بدست آمده لازم به استفاده از ابزار خاصی می باشد. از سوی دیگر، در رگرسیون غیرخطی ، فقط نوشتن یک فرم تابعی به منظور ارائه تخمین پارامترهای مجهول و عدم قطعیت برآورد شده ضروری است. بسته به کاربرد، این می تواند یک اشکال بزرگ یا کوچک در استفاده از LOESS باشد. به طور خاص، شکل ساده LOESS را نمی توان برای مدل سازی مکانیکی که پارامترهای برازش ویژگی های فیزیکی خاصی از یک سیستم را مشخص می کنند، استفاده کرد.


LOESS دارای محاسبات سنگین می باشد (به استثنای داده‌های با فاصله یکنواخت، که در آن رگرسیون می‌تواند به عنوان یک فیلتر پاسخ تکانه محدود غیر علی بیان شود). LOESS نیز مانند سایر روش های حداقل مربعات خطا مستعد تأثیرات داده پرت در مجموعه داده و باعث خراب شدن مدل می شود.

همچنین ببینید[ویرایش]

منابع[ویرایش]

  1. Fox & Weisberg 2018, Appendix.
  2. Harrell 2015, p. 29.
  3. Garimella 2017.
  4. "Savitzky–Golay filtering – MATLAB sgolayfilt". Mathworks.com.
  5. "scipy.signal.savgol_filter — SciPy v0.16.1 Reference Guide". Docs.scipy.org.
  6. Kristen Pavlik, US Environmental Protection Agency, Loess (or Lowess), Nutrient Steps, July 2016.
  7. «4.1.4.4. LOESS (aka LOWESS)». www.itl.nist.gov. دریافت‌شده در ۲۰۲۳-۰۷-۰۵.
  8. «4.1.4.4. LOESS (aka LOWESS)». www.itl.nist.gov. دریافت‌شده در ۲۰۲۳-۰۷-۰۵.
  9. NIST, "LOESS (aka LOWESS)", section 4.1.4.4, NIST/SEMATECH e-Handbook of Statistical Methods, (accessed 14 April 2017)
  10. NIST, "LOESS (aka LOWESS)", section 4.1.4.4, NIST/SEMATECH e-Handbook of Statistical Methods, (accessed 14 April 2017)

لینک های خارجی[ویرایش]

پیاده سازی ها[ویرایش]


این مقاله حاوی مطالب مربوط به حوزه عمومی از موسسه ملی استاندارد و فناوری است.