متعادلسازی کشسان
در آمار و بهطور خاص در برازش مدلهای رگرسیون خطی یا رگرسیون لجستیک، شبکه الاستیک (به انگلیسی: elastic net) یک روش برای تنظیم (متعادل سازی) است که بهطور خطی جریمههای نرم یک (L1-norm) و نرم دو (L2-norm) که به صورت جداگانه در روشهای لسو و تنظیم تیخونوف استفاده میشوند را ترکیب میکند و به نوعی کاستیهای این دو روش را پوشش میدهد.
مقدمه
[ویرایش]بهطور کلی در پیاده سازی الگوریتمهای یادگیری ماشین و بهطور خاص الگوریتمهای مبتنی بر رگرسیون این امکان وجود دارد که مقادیر وزنها و ایرپارامترهای مدل از کنترل خارج شوند به شکلی که یا خیلی بزرگ یا خیلی کوچک شوند یا به نوعی تمرین داده شوند که به مقادیر مجموعه تمرین بیش برازش کنند و در نتیجه عملکرد ضعیفی روی دادههای تست نشان دهند. در این شرایط است که عموماً از روشهای تعدیل سازی و عمومی سازی استفاده میشود تا از مشکلات گفته شده جلوگیری شود.
لسو
[ویرایش]روش LASSO براساس نرم یک، کار میکند و جریمه ای به همین شکل را به عبارتی که کمینه میکند، میافزاید. اینکار باعث میشود که مقادیر به صفر نزدیک شوند و مقادیری بزرگ به خود نگیرند (به اصطلاح خلوت) و به این شکل از بیش برازش جلوگیری شود. در مسئله رگرسیون تابع خطا با استفاده از تنظیم LASSO، به شکل زیر تغییر میکند:
![](http://upload.wikimedia.org/wikipedia/commons/thumb/7/71/Lasso_regularization.png/252px-Lasso_regularization.png)
که عبارت اول همان خطای کمترین مربعات و عبارت دوم ترم تعدیل ساز LASSO است. لازم است ذکر شود که ضریب تعدیل ساز نامیده میشود و با تغییر آن میتوان مشخص کرد که تأثیر عبارت تعدیل ساز در تابع جریمه چقدر باشد. استفاده از این تابع جریمه محدودیتهایی دارد[۱] به عنوان مثال، در مواردی که تعداد دادهها از تعداد ویژگیها بیشتر است استفاده از این روش موجب به صفر شدن بسیاری از ویژگیها میشود.. همچنین اگر گروهی از متغیرهای بسیار همبسته وجود داشته باشد، LASSO تمایل دارد یک متغیر را از یک گروه انتخاب کند و بقیه را نادیده بگیرد.
تنظیم تیخونوف
[ویرایش]![](http://upload.wikimedia.org/wikipedia/commons/thumb/0/03/Ridge_regularization.png/253px-Ridge_regularization.png)
در روش RIDGE از نرم دو برای تعدیل سازی استفاده میشود، پس در مورد تابع خطای رگرسیون داریم:در این روش برخلاف روش LASSO، وزنها تمایل دارند به جای صفر شدن با هم کوچک شوند.
تعدیلساز کشسان
[ویرایش]برای غلبه بر محدودیتهای دو روش قبلی، تعدیل ساز کشسان هردو عبارت را در تابع خطا استفاده میکند و رابطه زیر حاصل میشود:
که ضریب مشخص میکند تأثیر RIGDE و LASSO در تابع خطا به چه صورت باشد. عبارت جریمه درجه دوم تابع ضرر را قویا محدب میکند و این تابع دارای یک کمینه منحصر به فرد است و خطر گیر افتادن در کمینه محلی (نسبی) در روشهایی مثل کاهش گرادیانی را به حداقل میرساند. تعدیل سازهایی مثل مواردی که ذکر شد مختص به یک الگوریتم خاص مثل رگرسیون نیستند بلکه به جهت جلوگیری از بیش برازش و تعمیم پذیری مدل مدل میتوانند به هر الگوریتمی اضافه شوند. نمونههایی از مواردی که از تعدیل ساز کشسان استفاده شدهاست عبارتند از:
- ماشین بردار پشتیبانی[۲]
- یادگیری متریک[۳]
- بهینهسازی سبد سرمایهگذاری[۴]
- پیشبینی سرطان[۵]
کاهش به ماشین بردار پشتیبانی
[ویرایش]در اواخر سال ۲۰۱۴، ثابت شد که تعدیل ساز کشسان را میتوان به دستگاه بردار پشتیبان خطی کاهش داد.[۶] کاهش مشابهی قبلاً برای LASSO در سال ۲۰۱۴ ثابت شده بود.[۷] نویسندگان نشان دادند که برای هر نمونه از تعدیل ساز کشسان، میتوان یک مسئله معادل طبقهبندی باینری به گونهای ساخت که ابرصفحه حاصل از حل یک ماشین بردار پشتیبان خطی (SVM) با جواب تعدیل ساز کشسان یعنی یکسان باشد. این اتفاق استفاده از الگوریتمها و ابزارهای حل SVM را برای مسائل تعدیل ساز کشسان امکانپذیر میکند. همچنین استفاده از GPU را برای انجام بهینه تر محاسبات ممکن میکند که اغلب برای حل SVM در مقیاس بزرگ استفاده میشود.[۸]
پیادهسازی (پایتون)
[ویرایش]با استفاده از کتابخانهٔ Scikit-Learn در زبان برنامهنویسی پایتون میتوان مدل تنظیم کشسان را، به صورت زیر پیادهسازی کرد:
from sklearn.linear_model import ElasticNet
elasticNet = ElasticNet(alpha=0.1, l1_ratio=0.3)
elasticNet.fit(X_train, y_train)
prediction = elasticNet.predict(X_test)
در کد بالا مقدار برابر ۰٫۱ و مقدار برابر ۰٫۳ انتخاب شدهاست.
منابع
[ویرایش]- ↑ Zou, Hui; Hastie, Trevor (2005). "Regularization and Variable Selection via the Elastic Net". Journal of the Royal Statistical Society, Series B. 67 (2): 301–320. CiteSeerX 10.1.1.124.4696. doi:10.1111/j.1467-9868.2005.00503.x.
- ↑ Wang, Li; Zhu, Ji; Zou, Hui (2006). "The doubly regularized support vector machine" (PDF). Statistica Sinica. 16: 589–615.
- ↑ Liu, Meizhu; Vemuri, Baba (2012). "A robust and efficient doubly regularized metric learning approach". Proceedings of the 12th European Conference on Computer Vision. Lecture Notes in Computer Science. Part IV: 646–659. doi:10.1007/978-3-642-33765-9_46. ISBN 978-3-642-33764-2. PMC 3761969. PMID 24013160.
- ↑ Shen, Weiwei; Wang, Jun; Ma, Shiqian (2014). "Doubly Regularized Portfolio with Risk Minimization". Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence. 28: 1286–1292. doi:10.1609/aaai.v28i1.8906.
- ↑ Milanez-Almeida, Pedro; Martins, Andrew J.; Germain, Ronald N.; Tsang, John S. (2020-02-10). "Cancer prognosis with shallow tumor RNA sequencing". Nature Medicine (به انگلیسی). 26 (2): 188–192. doi:10.1038/s41591-019-0729-3. ISSN 1546-170X. PMID 32042193.
- ↑ Zhou, Quan; Chen, Wenlin; Song, Shiji; Gardner, Jacob; Weinberger, Kilian; Chen, Yixin. «A Reduction of the Elastic Net to Support Vector Machines with an Application to GPU Computing». بایگانیشده از اصلی در ۲۵ ژوئن ۲۰۲۲. دریافتشده در ۳۰ دسامبر ۲۰۲۲.
- ↑ Jaggi, Martin: Suykens, Johan; Signoretto, Marco; Argyriou, Andreas (eds.). «An Equivalence between the Lasso and Support Vector Machines. Chapman and Hall/CRC».
- ↑ "GTSVM". uchicago.edu.