متعادل‌سازی کشسان

در آمار و به‌طور خاص در برازش مدل‌های رگرسیون خطی یا رگرسیون لجستیک، شبکه الاستیک (به انگلیسی: elastic net) یک روش برای تنظیم (متعادل سازی) است که به‌طور خطی جریمه‌های نرم یک (L1-norm) و نرم دو (L2-norm) که به صورت جداگانه در روش‌های لسو و تنظیم تیخونوف استفاده می‌شوند را ترکیب می‌کند و به نوعی کاستی‌های این دو روش را پوشش می‌دهد.

مقدمه

به‌طور کلی در پیاده سازی الگوریتم‌های یادگیری ماشین و به‌طور خاص الگوریتم‌های مبتنی بر رگرسیون این امکان وجود دارد که مقادیر وزن‌ها و ایرپارامترهای مدل از کنترل خارج شوند به شکلی که یا خیلی بزرگ یا خیلی کوچک شوند یا به نوعی تمرین داده شوند که به مقادیر مجموعه تمرین بیش برازش کنند و در نتیجه عملکرد ضعیفی روی داده‌های تست نشان دهند. در این شرایط است که عموماً از روش‌های تعدیل سازی و عمومی سازی استفاده می‌شود تا از مشکلات گفته شده جلوگیری شود.

لسو

روش LASSO براساس نرم یک، $\|\omega \|_{1}=\textstyle \sum _{j=1}^{p}|\omega _{j}|$ کار می‌کند و جریمه ای به همین شکل را به عبارتی که کمینه می‌کند، می‌افزاید. اینکار باعث می‌شود که مقادیر $\omega$ به صفر نزدیک شوند و مقادیری بزرگ به خود نگیرند (به اصطلاح خلوت) و به این شکل از بیش برازش جلوگیری شود. در مسئله رگرسیون تابع خطا با استفاده از تنظیم LASSO، به شکل زیر تغییر می‌کند:

${\frac {1}{2m}}\Sigma _{i=1}^{m}{(y-Xw)^{2}}+\alpha \Sigma _{j=1}^{p}{\mid w_{j}\mid }$ که عبارت اول همان خطای کمترین مربعات و عبارت دوم ترم تعدیل ساز LASSO است. لازم است ذکر شود که $\alpha$ ضریب تعدیل ساز نامیده می‌شود و با تغییر آن می‌توان مشخص کرد که تأثیر عبارت تعدیل ساز در تابع جریمه چقدر باشد. استفاده از این تابع جریمه محدودیت‌هایی دارد^[۱] به عنوان مثال، در مواردی که تعداد داده‌ها از تعداد ویژگی‌ها بیشتر است استفاده از این روش موجب به صفر شدن بسیاری از ویژگی‌ها می‌شود.. همچنین اگر گروهی از متغیرهای بسیار همبسته وجود داشته باشد، LASSO تمایل دارد یک متغیر را از یک گروه انتخاب کند و بقیه را نادیده بگیرد.

تنظیم تیخونوف

در روش RIDGE از نرم دو $\|\omega \|_{2}=\textstyle \sum _{j=1}^{p}\omega _{j}^{2}$ برای تعدیل سازی استفاده می‌شود، پس در مورد تابع خطای رگرسیون داریم: $\Sigma _{i=1}^{m}{(y-Xw)^{2}}+\alpha \Sigma _{j=1}^{p}{w_{j}^{2}}$ در این روش برخلاف روش LASSO، وزن‌ها تمایل دارند به جای صفر شدن با هم کوچک شوند.

تعدیل‌ساز کشسان

برای غلبه بر محدودیت‌های دو روش قبلی، تعدیل ساز کشسان هردو عبارت را در تابع خطا استفاده می‌کند و رابطه زیر حاصل می‌شود:

$\Sigma _{i=1}^{m}{(y-Xw)^{2}}+\alpha *\lambda *\Sigma _{j=1}^{p}{\mid w_{j}\mid }+0.5*\alpha *(1-\lambda )*\Sigma _{j=1}^{p}{w_{j}^{2}}$ که ضریب $\lambda$ مشخص می‌کند تأثیر RIGDE و LASSO در تابع خطا به چه صورت باشد. عبارت جریمه درجه دوم تابع ضرر را قویا محدب می‌کند و این تابع دارای یک کمینه منحصر به فرد است و خطر گیر افتادن در کمینه محلی (نسبی) در روش‌هایی مثل کاهش گرادیانی را به حداقل می‌رساند. تعدیل سازهایی مثل مواردی که ذکر شد مختص به یک الگوریتم خاص مثل رگرسیون نیستند بلکه به جهت جلوگیری از بیش برازش و تعمیم پذیری مدل مدل می‌توانند به هر الگوریتمی اضافه شوند. نمونه‌هایی از مواردی که از تعدیل ساز کشسان استفاده شده‌است عبارتند از:

کاهش به ماشین بردار پشتیبانی

در اواخر سال ۲۰۱۴، ثابت شد که تعدیل ساز کشسان را می‌توان به دستگاه بردار پشتیبان خطی کاهش داد.^[۶] کاهش مشابهی قبلاً برای LASSO در سال ۲۰۱۴ ثابت شده بود.^[۷] نویسندگان نشان دادند که برای هر نمونه از تعدیل ساز کشسان، می‌توان یک مسئله معادل طبقه‌بندی باینری به گونه‌ای ساخت که ابرصفحه حاصل از حل یک ماشین بردار پشتیبان خطی (SVM) با جواب تعدیل ساز کشسان یعنی $\omega$ یکسان باشد. این اتفاق استفاده از الگوریتم‌ها و ابزارهای حل SVM را برای مسائل تعدیل ساز کشسان امکان‌پذیر می‌کند. همچنین استفاده از GPU را برای انجام بهینه تر محاسبات ممکن می‌کند که اغلب برای حل SVM در مقیاس بزرگ استفاده می‌شود.^[۸]

پیاده‌سازی (پایتون)

با استفاده از کتابخانهٔ Scikit-Learn در زبان برنامه‌نویسی پایتون می‌توان مدل تنظیم کشسان را، به صورت زیر پیاده‌سازی کرد:

from sklearn.linear_model import ElasticNet

elasticNet = ElasticNet(alpha=0.1, l1_ratio=0.3)
elasticNet.fit(X_train, y_train)
prediction = elasticNet.predict(X_test)

در کد بالا مقدار $\alpha$ برابر ۰٫۱ و مقدار $\lambda$ برابر ۰٫۳ انتخاب شده‌است.

منابع

↑ Zou, Hui; Hastie, Trevor (2005). "Regularization and Variable Selection via the Elastic Net". Journal of the Royal Statistical Society, Series B. 67 (2): 301–320. CiteSeerX 10.1.1.124.4696. doi:10.1111/j.1467-9868.2005.00503.x.
↑ Wang, Li; Zhu, Ji; Zou, Hui (2006). "The doubly regularized support vector machine" (PDF). Statistica Sinica. 16: 589–615.
↑ Liu, Meizhu; Vemuri, Baba (2012). "A robust and efficient doubly regularized metric learning approach". Proceedings of the 12th European Conference on Computer Vision. Lecture Notes in Computer Science. Part IV: 646–659. doi:10.1007/978-3-642-33765-9_46. ISBN 978-3-642-33764-2. PMC 3761969. PMID 24013160.
↑ Shen, Weiwei; Wang, Jun; Ma, Shiqian (2014). "Doubly Regularized Portfolio with Risk Minimization". Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence. 28: 1286–1292. doi:10.1609/aaai.v28i1.8906.
↑ Milanez-Almeida, Pedro; Martins, Andrew J.; Germain, Ronald N.; Tsang, John S. (2020-02-10). "Cancer prognosis with shallow tumor RNA sequencing". Nature Medicine (به انگلیسی). 26 (2): 188–192. doi:10.1038/s41591-019-0729-3. ISSN 1546-170X. PMID 32042193.
↑ Zhou, Quan; Chen, Wenlin; Song, Shiji; Gardner, Jacob; Weinberger, Kilian; Chen, Yixin. «A Reduction of the Elastic Net to Support Vector Machines with an Application to GPU Computing». بایگانی‌شده از اصلی در ۲۵ ژوئن ۲۰۲۲. دریافت‌شده در ۳۰ دسامبر ۲۰۲۲.
↑ Jaggi, Martin: Suykens, Johan; Signoretto, Marco; Argyriou, Andreas (eds.). «An Equivalence between the Lasso and Support Vector Machines. Chapman and Hall/CRC».
↑ "GTSVM". uchicago.edu.

[ZH-1] Zou, Hui; Hastie, Trevor (2005). "Regularization and Variable Selection via the Elastic Net". Journal of the Royal Statistical Society, Series B. 67 (2): 301–320. CiteSeerX 10.1.1.124.4696. doi:10.1111/j.1467-9868.2005.00503.x.

[2] Wang, Li; Zhu, Ji; Zou, Hui (2006). "The doubly regularized support vector machine" (PDF). Statistica Sinica. 16: 589–615.

[3] Liu, Meizhu; Vemuri, Baba (2012). "A robust and efficient doubly regularized metric learning approach". Proceedings of the 12th European Conference on Computer Vision. Lecture Notes in Computer Science. Part IV: 646–659. doi:10.1007/978-3-642-33765-9_46. ISBN 978-3-642-33764-2. PMC 3761969. PMID 24013160.

[4] Shen, Weiwei; Wang, Jun; Ma, Shiqian (2014). "Doubly Regularized Portfolio with Risk Minimization". Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence. 28: 1286–1292. doi:10.1609/aaai.v28i1.8906.

[5] Milanez-Almeida, Pedro; Martins, Andrew J.; Germain, Ronald N.; Tsang, John S. (2020-02-10). "Cancer prognosis with shallow tumor RNA sequencing". Nature Medicine (به انگلیسی). 26 (2): 188–192. doi:10.1038/s41591-019-0729-3. ISSN 1546-170X. PMID 32042193.

[SV-6] Zhou, Quan; Chen, Wenlin; Song, Shiji; Gardner, Jacob; Weinberger, Kilian; Chen, Yixin. «A Reduction of the Elastic Net to Support Vector Machines with an Application to GPU Computing». بایگانی‌شده از اصلی در ۲۵ ژوئن ۲۰۲۲. دریافت‌شده در ۳۰ دسامبر ۲۰۲۲.

[MJ-7] Jaggi, Martin: Suykens, Johan; Signoretto, Marco; Argyriou, Andreas (eds.). «An Equivalence between the Lasso and Support Vector Machines. Chapman and Hall/CRC».

[GT-8] "GTSVM". uchicago.edu.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]