هسته چندجمله‌ای

در یادگیری ماشینی، هسته چندجمله‌ای یک تابع هسته است که معمولاً با ماشین‌های بردار پشتیبان (SVM) و سایر مدل‌های مبتنی بر هسته استفاده می‌شود.

این هسته شباهت بردارها (ورودی‌های آموزش) را در فضای ویژگی جدید که یک چندجمله‌ای ساخته‌شده از ورودی هاست نشان می‌دهد. با این کار ما امکان یادگیری مدل‌های غیرخطی را به‌دست می‌آوریم.

به‌طور شهودی، هسته چندجمله‌ای تنها از ویژگی‌های داده شده در نمونه‌های ورودی برای تعیین شباهت آنها استفاده نمی‌کند، بلکه ترکیبی از آنها را نیز در نظر می‌گیرد.^[۱]

تعریف[ویرایش]

برای چندجمله‌ای‌های درجه $d$ ، هستهٔ چندجمله‌ای به صورت زیر تعریف می‌شود.^[۲]

$K(x,y)=(x^{\mathsf {T}}y+c)^{d}$

که در آن $x$ و $y$ بردارهایی در فضای ورودی هستند، یعنی نمونه‌هایی که در دادگان آموزش یا تست وجود دارند.

$c \geq ۰$ یک پارامتر آزاد است که تأثیر عبارات درجه بالاتر یا پایین‌تر را مشخص می‌کند. وقتی $c = ۰$ باشد، هسته همگن نامیده می‌شود.^[۳] (یک هستهٔ تعمیم‌یافته‌تر این است که $x T y$ را بر یک پارامتر اسکالر مانند $a$ که توسط کاربر مشخص می‌شود تقسیم کنیم.^[۴])

به عنوان یک هسته، $K$ نتیجهٔ یک ضرب داخلی در یک فضای ویژگی جدید است. برای رفتن به فضای جدید از نگاشت $φ$ استفاده می‌شود:

$K(x,y)=\langle \varphi (x),\varphi (y)\rangle$

کارکرد $φ$ را می‌توان در یک مثال بررسی کرد. $d = ۲$ را در نظر بگیرید، بنابراین ما یک حالت خاص از هسته یعنی هستهٔ درجه دوم را داریم.

$K(x,y)=\left(\sum _{i=1}^{n}x_{i}y_{i}+c\right)^{2}=\sum _{i=1}^{n}\left(x_{i}^{2}\right)\left(y_{i}^{2}\right)+\sum _{i=2}^{n}\sum _{j=1}^{i-1}\left({\sqrt {2}}x_{i}x_{j}\right)\left({\sqrt {2}}y_{i}y_{j}\right)+\sum _{i=1}^{n}\left({\sqrt {2c}}x_{i}\right)\left({\sqrt {2c}}y_{i}\right)+c^{2}$

بنابراین نگاشت $φ$ به صورت زیر خواهد بود.

$\varphi (x)=\langle x_{n}^{2},\ldots ,x_{1}^{2},{\sqrt {2}}x_{n}x_{n-1},\ldots ,{\sqrt {2}}x_{n}x_{1},{\sqrt {2}}x_{n-1}x_{n-2},\ldots ,{\sqrt {2}}x_{n-1}x_{1},\ldots ,{\sqrt {2}}x_{2}x_{1},{\sqrt {2c}}x_{n},\ldots ,{\sqrt {2c}}x_{1},c\rangle$

حالت کلی $\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}$ ، زمانی که $\mathbf {x} \in \mathbb {R} ^{n}$ ، $\mathbf {y} \in \mathbb {R} ^{n}$ است برابر خواهد بود با:

${\begin{alignedat}{2}\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}&=\sum _{j_{1}+j_{2}+\dots +j_{n+1}=d}{\frac {\sqrt {d!}}{\sqrt {j_{1}!\cdots j_{n}!j_{n+1}!}}}x_{1}^{j_{1}}\cdots x_{n}^{j_{n}}{\sqrt {c}}^{j_{n+1}}{\frac {\sqrt {d!}}{\sqrt {j_{1}!\cdots j_{n}!j_{n+1}!}}}y_{1}^{j_{1}}\cdots y_{n}^{j_{n}}{\sqrt {c}}^{j_{n+1}}\\&=\varphi (\mathbf {x} )^{T}\varphi (\mathbf {y} )\end{alignedat}}$

$\varphi (\mathbf {x} )=\left(a_{1},\dots ,a_{l},\dots ,a_{l_{d}}\right)$

که آخرین عبارت به صورت $l_{d}={\tbinom {n+d}{d}}$ است. و همچنین:

$a_{l}={\frac {\sqrt {d!}}{\sqrt {j_{1}!\cdots j_{n}!j_{n+1}!}}}x_{1}^{j_{1}}\cdots x_{n}^{j_{n}}{\sqrt {c}}^{j_{n+1}}\quad |\quad j_{1}+j_{2}+\dots +j_{n}+j_{n+1}=d$

کاربرد[ویرایش]

اگرچه هسته تابع پایه شعاعی (RBF) در طبقه‌بندی به کمک ماشین بردار پشتیبانی از هسته چندجمله‌ای محبوب‌تر است، ولی هستهٔ چندجمله‌ای در پردازش زبان طبیعی بسیار محبوب‌تر است.^[۱]^[۵]

رایج‌ترین درجه $d = ۲$ است، زیرا در مسائل پردازش زبان طبیعی درجات بزرگ‌تر تمایل به بیش‌برازش دارند.

مشکل[ویرایش]

یکی از مشکلات هسته چندجمله‌ای این است که ممکن است پایداری عددی^[۶] نداشته باشید به این معنا که وقتی $x T y + c < 1$ باشد آنگاه $K (x, y) = (x T y + c) d$ با افزایش $d$ به صفر میل می‌کند در حالی که وقتی که داشته باشیم $x T y + c > 1$ آنگاه $K (x, y)$ به بی‌نهایت تمایل دارد.^[۴]

منابع[ویرایش]

↑ ^۱٫۰ ^۱٫۱ Yoav Goldberg and Michael Elhadad (2008). splitSVM: Fast, Space-Efficient, non-Heuristic, Polynomial Kernel Computation for NLP Applications. Proc. ACL-08: HLT.
↑ "Archived copy" (PDF). Archived from the original (PDF) on 2013-04-15. Retrieved 2012-11-12.{{cite web}}: نگهداری یادکرد:عنوان آرشیو به جای عنوان (link)
↑ Shashua, Amnon (2009). "Introduction to Machine Learning: Class Notes 67577". arXiv:0904.3664v1 [cs.LG].
↑ ^۴٫۰ ^۴٫۱ Lin, Chih-Jen (2012). Machine learning software: design and practical use (PDF). Machine Learning Summer School. Kyoto.
↑ Chang, Yin-Wen; Hsieh, Cho-Jui; Chang, Kai-Wei; Ringgaard, Michael; Lin, Chih-Jen (2010). "Training and testing low-degree polynomial data mappings via linear SVM". Journal of Machine Learning Research. 11: 1471–1490.
↑ "Numerical stability". Wikipedia (به انگلیسی). 2022-08-30.

[Goldberg20082-1] ۱٫۰ ^۱٫۱ Yoav Goldberg and Michael Elhadad (2008). splitSVM: Fast, Space-Efficient, non-Heuristic, Polynomial Kernel Computation for NLP Applications. Proc. ACL-08: HLT.

[2] "Archived copy" (PDF). Archived from the original (PDF) on 2013-04-15. Retrieved 2012-11-12.{{cite web}}: نگهداری یادکرد:عنوان آرشیو به جای عنوان (link)

[3] Shashua, Amnon (2009). "Introduction to Machine Learning: Class Notes 67577". arXiv:0904.3664v1 [cs.LG].

[lin2012-4] ۴٫۰ ^۴٫۱ Lin, Chih-Jen (2012). Machine learning software: design and practical use (PDF). Machine Learning Summer School. Kyoto.

[Chang2010-5] Chang, Yin-Wen; Hsieh, Cho-Jui; Chang, Kai-Wei; Ringgaard, Michael; Lin, Chih-Jen (2010). "Training and testing low-degree polynomial data mappings via linear SVM". Journal of Machine Learning Research. 11: 1471–1490.

[6] "Numerical stability". Wikipedia (به انگلیسی). 2022-08-30.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]