نظریه یادگیری آماری

نظریه یادگیری آماری چارچوبی برای یادگیری ماشینی است که از زمینه های آمار و آنالیز تابعی گرفته می شود.^[۱]^[۲]^[۳] نظریه یادگیری آماری با مسئله استنباط آماری یافتن یک تابع پیش بینی بر اساس داده ها سر و کار دارد. تئوری یادگیری آماری منجر به کاربردهای موفقی در زمینه هایی مانند بینایی کامپیوتر، بازشناسی گفتار و بیوانفورماتیک شده است.

مقدمه[ویرایش]

اهداف یادگیری درک و پیش بینی است. یادگیری به دسته های زیادی تقسیم می شود، از جمله یادگیری نظارت‌شده، یادگیری خودران، یادگیری ماشین برخط و یادگیری تقویتی. از دیدگاه تئوری یادگیری آماری، یادگیری تحت نظارت به بهترین وجه قابل درک است.^[۴] یادگیری تحت نظارت شامل یادگیری از مجموعه داده‌های آموزشی است. هر نقطه در آموزش یک جفت ورودی-خروجی است، جایی که ورودی به یک خروجی نگاشت می شود. مسئله یادگیری شامل استنباط تابعی است که بین ورودی و خروجی نگاشت می شود، به طوری که تابع آموخته شده بتواند برای پیش بینی خروجی از ورودی های آینده استفاده شود.

بسته به نوع خروجی، مسائل یادگیری تحت نظارت یا مسائل رگریسون یا مسائل طبقه‌بندی هستند. اگر خروجی یک محدوده پیوسته از مقادیر را بگیرد، مسئله رگرسیون است. مسائل طبقه بندی آنهایی هستند که خروجی آنها عنصری از مجموعه ای مجزا از برچسب ها خواهد بود. طبقه بندی برای کاربردهای یادگیری ماشین بسیار رایج است. به عنوان مثال، در تشخیص چهره، تصویری از چهره یک فرد ورودی است و برچسب خروجی نام آن شخص خواهد بود. ورودی با یک بردار چند بعدی بزرگ نشان داده می شود که عناصر آن پیکسل ها را در تصویر نشان می دهند. پس از یادگیری یک تابع بر اساس داده های مجموعه آموزشی، آن تابع بر روی یک مجموعه آزمایشی از داده ها، داده هایی که در مجموعه آموزشی ظاهر نشده اند، اعتبارسنجی می شود.

تعریف صوری[ویرایش]

$X$ را فضای برداری همه ورودی‌های ممکن و $Y$ را فضای برداری همه خروجی‌های ممکن در نظر بگیرید. تئوری یادگیری آماری این دیدگاه را ارائه می‌دهد که توزیع احتمال ناشناخته‌ای در فضای $Z=X\times Y$ وجود دارد، یعنی یک $p(z)=p({\vec {x}},y)$ ناشناخته‌ای وجود دارد. مجموعه آموزشی از $n$ نمونه از این توزیع احتمال تشکیل شده است و علامت گذاری شده است.

S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}=\{{\vec {z}}_{1},\dots ,{\vec {z}}_{n}\}

هر ${\vec {x}}_{i}$ یک بردار ورودی از داده های آموزشی است و $y_{i}$ خروجی مربوط به آن است.

طبق این تعریف، مسئله استنتاج عبارت است از یافتن تابع $f:X\to Y$ به طوری که $f({\vec {x}})\sim y$ . بگذارید ${\mathcal {H}}$ فضایی از توابع $f:X\to Y$ باشد که فضای فرضیه نامیده می‌شود. فضای فرضیه فضای توابعی است که الگوریتم در آن جستجو می کند. بگذارید $V(f({\vec {x}}),y)$ تابع هزینه باشد، معیاری برای تفاوت بین مقدار پیش‌بینی‌شده $f({\vec {x}})$ و مقدار واقعی $y$ . ریسک مورد انتظار تعریف شده است:

$I[f]=\displaystyle \int _{X\times Y}V(f({\vec {x}}),y)\,p({\vec {x}},y)\,d{\vec {x}}\,dy$

تابع هدف،آن تابع $f$ است که برآورده میکند:

$f=\inf _{h\in {\mathcal {H}}}I[h]$

از آنجایی که توزیع احتمال $p({\vec {x}},y)$ ناشناخته است، باید یک معیار تقریبی برای ریسک مورد انتظار استفاده شود. این مقدار بر اساس مجموعه آموزشی، نمونه ای از این توزیع احتمال ناشناخته است. به آن ریسک تجربی می گویند:

$I_{S}[f]={\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})$

الگوریتم یادگیری که تابع $f_{S}$ را انتخاب می‌کند که ریسک تجربی را به حداقل می‌رساند، حداقل‌سازی ریسک تجربی نامیده می‌شود.

تابع هزینه[ویرایش]

انتخاب تابع هزینه یک عامل تعیین کننده بر روی تابع $f_{S}$ است که توسط الگوریتم یادگیری انتخاب خواهد شد. تابع هزینه همچنین بر نرخ همگرایی یک الگوریتم تأثیر می گذارد. مهم است که تابع هزینه, محدب باشد. ^[۵]

بسته به اینکه مشکل مربوط به رگرسیون یا طبقه بندی باشد، از توابع هزینه متفاوتی استفاده می شود.

رگریسون[ویرایش]

متداول ترین تابع هزینه برای رگرسیون، تابع هزینه مربعات است (همچنین به عنوان نرم درجه دو شناخته می شود). این تابع هزینه آشنا در کمترین مربعات معمولی استفاده می شود. به این صورت:

V(f({\vec {x}}),y)=(y-f({\vec {x}}))^{2}

هزینه قدر مطلق (همچنین به عنوان نرم درجه یک نیز شناخته می شود) گاهی اوقات استفاده می شود:

V(f({\vec {x}}),y)=|y-f({\vec {x}})|

طبقه‌بندی[ویرایش]

به نوعی، تابع مشخصه0-1 طبیعی ترین تابع هزینه برای طبقه بندی است. اگر خروجی پیش بینی شده با خروجی واقعی یکسان باشد، مقدار 0 را می گیرد و اگر خروجی پیش بینی شده با خروجی واقعی متفاوت باشد، مقدار 1 را می گیرد. برای طبقه بندی دودویی با $Y=\{-1,1\}$ ، این تابع برابر است با:

V(f({\vec {x}}),y)=\theta (-yf({\vec {x}}))

که در آن $\theta$ تابع پله‌ای یکه است.

منابع[ویرایش]

↑ (1995) The Nature of Statistical Learning Theory | Vladimir Vapnik | Springer (به انگلیسی).
↑ Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning, Springer-Verlag(به انگلیسی).
↑ Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. USA, Massachusetts: MIT Press(به انگلیسی)
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012,(به انگلیسی) Class 1
↑ VRosasco, L.,ito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076(به انگلیسی)

[1] (1995) The Nature of Statistical Learning Theory | Vladimir Vapnik | Springer (به انگلیسی).

[2] Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning, Springer-Verlag(به انگلیسی).

[3] Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. USA, Massachusetts: MIT Press(به انگلیسی)

[4] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012,(به انگلیسی) Class 1

[5] VRosasco, L.,ito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076(به انگلیسی)

[۱]

[۲]

[۳]

[۴]

[۵]