دیدگاه‌های تنظیم در ماشین‌های بردارپشتیبانی

دیدگاه‌های منظم‌سازی در ماشین‌های بردار پشتیبان راهی برای تفسیر ماشین‌های بردار پشتیبان (SVM) در زمینه سایر الگوریتم‌های یادگیری ماشینی مبتنی بر منظم‌سازی ارائه می‌کنند. الگوریتم‌های ماشین‌بردارپشتیبان داده‌های باینری را با هدف برازش داده‌های مجموعه آموزشی به گونه‌ای دسته‌بندی می‌کنند که میانگین تابع هزینه هینج و نرم L2 وزن‌های آموخته‌شده را به حداقل برساند. این استراتژی از بیش‌برازش از طریق منظم‌سازی تیخونوف و در مفهوم نرمL2 جلوگیری می‌کند و همچنین با به حداقل رساندن انحراف و واریانس تخمین‌گر ما از وزن‌ها مطابقت دارد. برآوردگرهایی با میانگین مجذور خطای کمتر، زمانی که داده‌های دیده نشده داده می‌شوند، بهتر پیش‌بینی می‌کنند یا بهتر تعمیم می‌دهند.

به‌طور خاص، الگوریتم‌های تنظیم تیخونوف یک مرز تصمیم‌گیری تولید می‌کنند که میانگین خطای مجموعه آموزشی را به حداقل می‌رساند و مرز تصمیم‌گیری را محدود می‌کند که بیش از حد پیچیده نباشد یا بیش برازش روی داده‌های تمرین نداشته باشدو اینکار را از طریق یک

وزن‌ها تنظیم کند. خطاهای آموزش و مجموعه تست را می‌توان بدون انحراف و به روشی منصفانه با استفاده از صحت، دقت، Auc-Roc، دقت و بازیابی و سایر معیارها اندازه‌گیری کرد.

دیدگاه‌های منظم‌سازی در ماشین‌های بردار پشتیبان، ماشین‌بردارپشتیبان را به عنوان یک مورد خاص از منظم‌سازی تیخونوف، به‌ویژه منظم‌سازی تیخونوف با از تابع هزینه هینج برای یک تابع هزینه، تفسیر می‌کند. این یک چارچوب نظری برای تجزیه و تحلیل الگوریتم‌های ماشین‌بردارپشتیبان و مقایسه آن‌ها با الگوریتم‌های دیگر با اهداف مشابه فراهم می‌کند: تعمیم بدون بیش برازش. ماشین‌بردارپشتیبان اولین بار در سال ۱۹۹۵ توسط کورینا کورتس و ولادیمیر واپنیک پیشنهاد شد و به صورت هندسی به عنوان روشی برای یافتن ابرصفحه‌ها که می‌تواند داده‌های چند بعدی را به دو دسته تقسیم کند، ارائه شد.^[۱] این تفسیر هندسی سنتی ازماشین‌بردارپشتیبان شهود مفیدی را در مورد نحوه کار ماشین‌بردارپشتیبان ارائه می‌دهد، اما ارتباط با سایر تکنیک‌های یادگیری ماشینی برای جلوگیری از تطبیق بیش از حد، مانند منظم سازی، توقف اولیه، پراکندگی و استنتاج بیزی دشوار است. با این حال، هنگامی که کشف شد که ماشین‌بردارپشتیبان نیز یک مورد خاص از منظم‌سازی تیخونوف است، دیدگاه‌های منظم‌سازی در ماشین‌بردارپشتیبان تئوری لازم را برای تطبیق ماشین‌بردارپشتیبان در کلاس وسیع‌تری از الگوریتم‌ها ارائه کرد.^[۲]^[۳] این امکان مقایسه دقیق بین ماشین‌بردارپشتیبان و سایر اشکال منظم سازی تیخونوف را فراهم کرده‌است، و دلیل نظری را برای اینکه چرا استفاده از تابع هزینه ماشین‌بردارپشتیبان، یعنی از تابع هزینه هینج، سودمند است، را فراهم کرده‌است.^[۴]

در چارچوب تئوری یادگیری آماری، الگوریتم یک استراتژی برای انتخاب یک تابع است $f\colon \mathbf {X} \to \mathbf {Y}$ یک مجموعه آموزشی داده شده‌است $S=\{(x_{1},y_{1}),\ldots ,(x_{n},y_{n})\}$ از ورودی‌ها $x_{i}$ و برچسب‌های آنها $y_{i}$ (برچسب‌ها معمولاً هستند $\pm 1$ ). استراتژی‌های تنظیم با انتخاب تابعی که متناسب با داده‌ها است، اما خیلی پیچیده نیست، از بیش برازش جلوگیری می‌کند. به‌طور مشخص:

f={\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left\{{\frac {1}{n}}\sum _{i=1}^{n}V(y_{i},f(x_{i}))+\lambda \|f\|_{\mathcal {H}}^{2}\right\},

جایی که ${\mathcal {H}}$ یک فضای فرضی^[۵] از توابع است، $V\colon \mathbf {Y} \times \mathbf {Y} \to \mathbb {R}$ تابع هزینه است، $\|\cdot \|_{\mathcal {H}}$ یک نرم در فضای فرضی توابع است، و $\lambda \in \mathbb {R}$ پارامتر منظم سازی است.^[۶]

چه زمانی ${\mathcal {H}}$ یک هسته بازتولید فضای هیلبرت است، یک تابع هسته وجود دارد $K\colon \mathbf {X} \times \mathbf {X} \to \mathbb {R}$ که می‌تواند به صورت یک نوشته شود $n\times n$ ماتریس مثبت - معین متقارن $\mathbf {K}$ . توسط قضیه معرفی کننده،

f(x_{i})=\sum _{j=1}^{n}c_{j}\mathbf {K} _{ij},{\text{ and }}\|f\|_{\mathcal {H}}^{2}=\langle f,f\rangle _{\mathcal {H}}=\sum _{i=1}^{n}\sum _{j=1}^{n}c_{i}c_{j}K(x_{i},x_{j})=c^{T}\mathbf {K} c.

خواص ویژه تابع هزینه هینج[ویرایش]

ساده‌ترین و شهودی‌ترین تابع هزینه برای دسته‌بندی، هزینه-طبقه‌بندی-اشتباه یا هزینه ۰–۱ است که اگر ۰ است $f(x_{i})=y_{i}$ و ۱ اگر $f(x_{i})\neq y_{i}$ ، یعنی تابع پله‌ای هویساید روی $-y_{i}f(x_{i})$ . با این حال، این تابع هزینه محدب نیست، در نتیجه پیدا کردن مینیمم مسئله منظم‌سازی از نظر محاسباتی بسیار دشوار است؛ بنابراین، ما به دنبال جایگزین‌های محدب برای هزینه ۰–۱ هستیم. هزینه هینج، $V{\big (}y_{i},f(x_{i}){\big )}={\big (}1-yf(x){\big )}_{+}$ ، جایی که $(s)_{+}=\max(s,0)$ ، چنین محدبی را فراهم می‌کند. در واقع، هزینه هینج، بهترین کران محدب بالایی به تابع هزینه-طبقه‌بندی-اشتباه ۰–۱ است،^[۳] و با داده‌های بی‌نهایت، راه‌حل بهینه بیز را برمی‌گرداند:^[۴]^[۷]

f_{b}(x)={\begin{cases}1,&p(1\mid x)>p(-1\mid x),\\-1,&p(1\mid x)<p(-1\mid x).\end{cases}}

مسئله تنظیم تیخونوف را می‌توان نشان داد که با فرمول مرسوم ماشین‌بردارپشتیبان وبیان آن با تابع هزینه هینج معادل است. تابع هزینه هینج در آن به صورت زیر است.

V{\big (}y_{i},f(x_{i}){\big )}={\big (}1-yf(x){\big )}_{+},

جایی که $(s)_{+}=\max(s,0)$ ، مسئله تنظیم می‌شود.

f={\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left\{{\frac {1}{n}}\sum _{i=1}^{n}{\big (}1-yf(x){\big )}_{+}+\lambda \|f\|_{\mathcal {H}}^{2}\right\}.

ضرب در $1/(2\lambda )$ نتیجه می‌دهد:

f={\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left\{C\sum _{i=1}^{n}{\big (}1-yf(x){\big )}_{+}+{\frac {1}{2}}\|f\|_{\mathcal {H}}^{2}\right\}

با $C=1/(2\lambda n)$ ، که معادل مسئله کمینه سازی استاندارد ماشین‌بردارپشتیبانی است.

یادداشت‌ها و مراجع[ویرایش]

↑ Cortes, Corinna; Vladimir Vapnik (1995). "Support-Vector Networks". Machine Learning. 20 (3): 273–297. doi:10.1007/BF00994018.
↑ Rosasco, Lorenzo. "Regularized Least-Squares and Support Vector Machines" (PDF).
↑ ^۳٫۰ ^۳٫۱ Lee, Yoonkyung; Wahba, Grace (2012). "Multicategory Support Vector Machines". Journal of the American Statistical Association. 99 (465): 67–81. doi:10.1198/016214504000000098.
↑ ^۴٫۰ ^۴٫۱ Rosasco L. , De Vito E. , Caponnetto A. , Piana M. , Verri A. (May 2004). "Are Loss Functions All the Same". Neural Computation. 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)
↑ A hypothesis space is the set of functions used to model the data in a machine-learning problem. Each function corresponds to a hypothesis about the structure of the data. Typically the functions in a hypothesis space form a Hilbert space of functions with norm formed from the loss function.
↑ For insight on choosing the parameter, see, e.g. , Wahba, Grace; Yonghua Wang (1990). "When is the optimal regularization parameter insensitive to the choice of the loss function". Communications in Statistics – Theory and Methods. 19 (5): 1685–1700. doi:10.1080/03610929008830285.
↑ Lin, Yi (July 2002). "Support Vector Machines and the Bayes Rule in Classification" (PDF). Data Mining and Knowledge Discovery. 6 (3): 259–275. doi:10.1023/A:1015469627679.

Evgeniou, Theodoros; Massimiliano Pontil; Tomaso Poggio (2000). "Regularization Networks and Support Vector Machines" (PDF). Advances in Computational Mathematics. 13 (1): 1–50. doi:10.1023/A:1018946025316.
Joachims, Thorsten. "SVMlight". Archived from the original on 2015-04-19. Retrieved 2012-05-18.

[1] Cortes, Corinna; Vladimir Vapnik (1995). "Support-Vector Networks". Machine Learning. 20 (3): 273–297. doi:10.1007/BF00994018.

[rosasco1-2] Rosasco, Lorenzo. "Regularized Least-Squares and Support Vector Machines" (PDF).

[Lee_2012_67–81-3] ۳٫۰ ^۳٫۱ Lee, Yoonkyung; Wahba, Grace (2012). "Multicategory Support Vector Machines". Journal of the American Statistical Association. 99 (465): 67–81. doi:10.1198/016214504000000098.

[Rosasco_2004_1063–1076-4] ۴٫۰ ^۴٫۱ Rosasco L. , De Vito E. , Caponnetto A. , Piana M. , Verri A. (May 2004). "Are Loss Functions All the Same". Neural Computation. 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)

[5] A hypothesis space is the set of functions used to model the data in a machine-learning problem. Each function corresponds to a hypothesis about the structure of the data. Typically the functions in a hypothesis space form a Hilbert space of functions with norm formed from the loss function.

[6] For insight on choosing the parameter, see, e.g. , Wahba, Grace; Yonghua Wang (1990). "When is the optimal regularization parameter insensitive to the choice of the loss function". Communications in Statistics – Theory and Methods. 19 (5): 1685–1700. doi:10.1080/03610929008830285.

[7] Lin, Yi (July 2002). "Support Vector Machines and the Bayes Rule in Classification" (PDF). Data Mining and Knowledge Discovery. 6 (3): 259–275. doi:10.1023/A:1015469627679.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]