خطای تعمیم

در کاربردهای یادگیری نظارت شده در یادگیری ماشینی، خطای تعمیم^[۱] (به انگلیسی: Generalization error) معیاری برای ارزیابی میزان دقت یک الگوریتم در پیش‌بینی داده‌های از پیش دیده نشده‌ است. به دلیل این که الگوریتم‌های یادگیری توسط نمونه‌های محدودی ارزیابی می‌شوند، ارزیابی این الگوریتم‌ها به خطای نمونه‌گیری حساس است. در نتیجه، معیارهای پیش‌بینی با توجه به داده‌های کنونی ممکن است اطلاعات جدیدی در مورد توانایی پیش‌بینی در داده‌های جدید ارائه نکند. با اجتناب از بیش‌برازش می‌توان خطای تعمیم را کاهش داد. عملکرد یک الگوریتم یادگیری ماشین با تجسم نمودارهایی به نام منحنی فراگیری انجام می‌پذیرد که خطای تعمیم را در فرایند یادگیری تخمین می‌زنند.

تعریف[ویرایش]

هدف در یک مسئلهٔ یادگیری، یافتن تابع $f_{n}({\vec {x}})$ است که با توجه به دادهٔ ورودی ${\vec {x}}$ ، خروجی $y$ را پیش‌بینی می‌کند. زیرنویس $n$ نشان می‌دهد که تابع $f_{n}$ براساس مجموعه‌ای شامل $n$ داده ساخته شده‌است. خطای تعمیم، $I[f]$ برای تابع $f$ ، روی تمام مقادیر ${\vec {x}}$ و $y$ برابر است با:^[۲]

$I[f]=\int _{X\times Y}V(f({\vec {x}}),y)\rho ({\vec {x}},y)d{\vec {x}}dy,$

که در آن $V$ ، تابع هزینه و $\rho ({\vec {x}},y)$ ، توزیع احتمال توأم برای ${\vec {x}}$ و $y$ است.

بدون دانستن توزیع احتمال توأم، $\rho$ محاسبهٔ مقدار $I[f]$ غیرممکن است. در عوض، می‌توانیم خطا را روی داده‌های نمونه محاسبه کنیم که به آن خطای تجربی می‌گویند. خطای تجربی با دانستن $n$ داده برابر است با:

$I_{n}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})$

و یک الگوریتم تعمیم‌پذیر خواهد بود اگر:

$\lim _{n\rightarrow \infty }I[f]-I_{n}[f]=0$

خطای تعمیم $I[f_{n}]$ ، برای یک تابع وابسته به دادهٔ $f_{n}$ که توسط یک الگوریتم یادگیری بر اساس نمونه محاسبه شده‌است، از اهمیت زیادی برخوردار است. با توجه به این که محاسبهٔ مستقیم $I[f_{n}]$ نیازمند دانستن توزیع احتمال است که ناشناخته است، هدف بسیاری از مسائل در نظریه یادگیری آماری محدود کردن یا مشخص کردن تفاوت خطای تعمیم و خطای تجربی است:

$P_{G}=P(I[f_{n}]-I_{n}[f_{n}]\leq \epsilon )\geq 1-\delta _{n}$

در نتیجه، هدف مشخص کردن احتمال $1-\delta _{n}$ است که بتوانیم خطای تعمیم را، با جمع خطای تجربی و یک کران خطا $\epsilon$ (در حالت کلی وابسته به $\delta$ و $n$ ) محدود کنیم. در بسیاری از الگوریتم‌ها، نشان داده شده‌است که یک الگوریتم، در صورتی که معیارهای ثبات خاصی را برآورده کند، دارای مرزهای تعمیم است. به‌طور خاص، اگر الگوریتمی متقارن باشد (ترتیب ورودی‌ها بر نتیجه تأثیری نگذارد)، تابع هزینهٔ محدودی داشته باشد و دو شرط پایداری را برآورده کند، تعمیم می‌یابد. این شرایط را می‌توان به صورت زیر بیان کرد:

پایداری اعتبارسنجی متقابل یک‌طرفه (به انگلیسی: Leave-one-out cross-validation)[ویرایش]

الگوریتم $L$ این ثبات را خواهد داشت اگر به ازای هر $n$ ، وجود داشته باشد $\beta _{CV}^{(n)}$ و $\delta _{CV}^{(n)}$ که:

$\forall i\in \{1,...,n\},\mathbb {P} _{S}\{|V(f_{S^{i}},z_{i})-V(f_{S},z_{i})|\leq \beta _{CV}^{(n)}\}\geq 1-\delta _{CV}^{(n)}$

و $\beta _{CV}^{(n)}$ و $\delta _{CV}^{(n)}$ زمانی که $n\rightarrow \infty$ به صفر میل کنند.

پایداری امیدریاضی اعتبارسنجی یک‌طرفه (به انگلیسی: Expected-leave-one-out error Stability)[ویرایش]

الگوریتم $L$ این ثبات را خواهد داشت اگر به ازای هر $n$ ، وجود داشته باشد $\beta _{EL}^{m}$ و $\delta _{EL}^{m}$ که:

$\forall i\in \{1,...,n\},\mathbb {P} _{S}\left\{\left|I[f_{S}]-{\frac {1}{n}}\sum _{i=1}^{N}V\left(f_{S^{i}},z_{i}\right)\right|\leq \beta _{EL}^{(n)}\right\}\geq 1-\delta _{EL}^{(n)}$

و $\beta _{EL}^{(n)}$ و $\delta _{EL}^{(n)}$ زمانی که $n\rightarrow \infty$ به صفر میل کنند.

الگوریتم‌های پایدار اثبات‌شده (به انگلیسی: Algorithms with proven stability)[ویرایش]

ثابت شده‌است که تعدادی از الگوریتم‌ها پایدار هستند، و در نتیجه خطای تعمیم آن‌ها محدود است. فهرستی از این الگوریتم‌ها و مقالاتی که پایداری آن‌ها را ثابت کرده‌اند، اینجا موجود است.

ارتباط با بیش‌برازش[ویرایش]

این شکل، رابطه بین بیش‌برازش و خطای تعمیم را نشان می‌دهد I[*f_n*] - *I_S*[*f_n*]. نقاط داده از رابطه y = x با نویز سفید اضافه شده به مقادیر y تولید شده‌اند.

مفاهیم خطای تعمیم و بیش‌برازش به هم مرتبط هستند. بیش‌برازش زمانی اتفاق می‌افتد که تابع $f_{S}$ به نویز داخل نمونه‌ها حساس شود. در نتیجه، این تابع روی مجموعهٔ آموزشی به خوبی عمل می‌کند، اما روی داده‌های دیگر که از توزیع احتمال مشترک $x$ و $y$ هستند، به خوبی عمل نمی‌کند؛ بنابراین، هرچه بیش‌برازش بیشتر باشد، خطای تعمیم هم بزرگتر خواهد بود.

میزان بیش‌برازش را می‌توان با استفاده از روش اعتبارسنجی متقابل محاسبه کرد، که نمونه‌ها را به نمونه‌های آموزشی و نمونه‌های آزمایشی تقسیم می‌کند. سپس مدل بر روی نمونه‌های آموزشی، آموزش داده می‌شود و بر روی نمونه‌های آزمایشی، ارزیابی می‌شود. نمونه‌های آزمایشی قبلاً توسط الگوریتم دیده نشده‌اند، بنابراین یک مجموعه نمونهٔ تصادفی از توزیع احتمال مشترک $x$ و $y$ خواهد بود. این مجموعه از نمونه‌های آزمایشی، به ما اجازه می‌دهد تا خطای مورد انتظار را تقریب بزنیم و تخمین خوبی از خطای تعمیم داشته باشیم.

الگوریتم‌های زیادی برای جلوگیری از بیش‌برازش وجود دارد. الگوریتم‌های کمینه‌سازی می‌توانند توابع پیچیده‌تری را جریمه کنند (معروف به منظم‌سازی تیخونوف) یا فضای فرضیه را می‌توان به صورت صریح، در قالب توابع یا با افزودن محدودیت‌هایی به تابع کمینه‌سازی (منظم‌سازی ایوانوف) محدود کرد.

یافتن تابعی که بیش‌برازش نداشته باشد، در تضاد با هدف یافتن تابعی است که به اندازه کافی پیچیده باشد تا ویژگی‌های داده‌ها را به تصویر بکشد. این به عنوان مبادله بایاس و واریانس معروف است. ساده نگه داشتن یک تابع برای جلوگیری از بیش‌برازش ممکن است باعث ایجاد بایاس در پیش‌بینی‌های به‌دست‌آمده شود، در حالی که پیچیده‌تر بودن آن منجر به بیش‌برازش و واریانس بیشتر خواهد شد و به حداقل رساندن هر دو به‌طور همزمان، غیرممکن است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

↑ Y S. Abu-Mostafa, M.Magdon-Ismail, and H. -T. Lin (2012) Learning from Data, AMLBook Press. شابک ‎۹۷۸−۱۶۰۰۴۹۰۰۶۴
↑ Mohri, M. , Rostamizadeh A. , Talwakar A. , (2018) Foundations of Machine learning, 2nd ed. , Boston: MIT Press

[1] Y S. Abu-Mostafa, M.Magdon-Ismail, and H. -T. Lin (2012) Learning from Data, AMLBook Press. شابک ‎۹۷۸−۱۶۰۰۴۹۰۰۶۴

[2] Mohri, M. , Rostamizadeh A. , Talwakar A. , (2018) Foundations of Machine learning, 2nd ed. , Boston: MIT Press

[۱]

[۲]

ن ب و علوم رایانه
Note: This template roughly follows the 2012 ACM Computing Classification System.
سخت‌افزار	برد مدار چاپی دستگاه جانبی مدار مجتمع یکپارچه‌سازی کلان‌مقیاس سامانه روی یک تراشه رایانش سبز خودکارسازی طراحی الکترونیکی شتاب‌دهنده سخت‌افزاری
سازمان سامانه‌های رایانه	معماری رایانه سامانه نهفته رایانش بی‌درنگ اطمینان‌پذیری
شبکه رایانه‌ای	معماری شبکه پروتکل ارتباطات سخت‌افزار شبکه برنامه‌ریز شبکه کارایی شبکه رایانه‌ای سرویس شبکه‌ای
سازمان نرم‌افزار	مفسر میان‌افزار ماشین مجازی سیستم‌عامل کیفیت نرم‌افزار
نظریه زبان‌های برنامه‌نویسی و ابزار توسعه نرم‌افزار	الگو برنامه‌نویسی زبان برنامه‌نویسی کامپایلر زبان خاص دامنه زبان مدل‌سازی چارچوب نرم‌افزاری محیط یکپارچه توسعه نرم‌افزار مدیریت پیکربندی نرم‌افزار کتابخانه (رایانه) مخزن نرم‌افزاری
توسعه نرم‌افزار	فرایند توسعه نرم‌افزار تحلیل نیازمندی‌ها طراحی نرم‌افزار ساخت نرم‌افزار استقرار نرم‌افزار تعمیر و نگهداری نرم‌افزار تیم برنامه‌نویسی نرم‌افزار متن‌باز برنامه‌نویسی آزمون نرم‌افزار
نظریه محاسبات	مدل محاسبه زبان صوری نظریه اتوماتا نظریه رایانش‌پذیری نظریه پیچیدگی محاسباتی منطق در علوم کامپیوتر معنی‌شناسی (علوم رایانه)
الگوریتمها	الگوریتم تحلیل الگوریتم‌ها کارایی الگوریتمی الگوریتم‌های تصادفی هندسه محاسباتی
ریاضیات رایانه	ریاضیات گسسته احتمالات آمار نرم‌افزار ریاضی نظریه اطلاعات آنالیز ریاضی آنالیز عددی
سامانه اطلاعاتی	پایگاه داده ذخیره‌سازی داده رایانه سامانه اطلاعات سازمانی نرم‌افزار اجتماعی سامانه اطلاعات جغرافیایی سامانه پشتیبانی تصمیم کنترل فرایند پایگاه داده چند رسانه‌ای داده‌کاوی کتابخانه دیجیتال سکوی رایانش بازاریابی اینترنتی وب جهان‌گستر بازیابی اطلاعات مستندسازی فنی
امنیت رایانه	رمزنگاری روش‌های صوری خدمات امنیتی سامانه تشخیص نفوذ خرابی سخت‌افزار امنیت شبکه امنیت اطلاعات امنیت برنامه
تعامل انسان و رایانه	طراحی تعاملی رایانش اجتماعی رایانش فراگیر مصورسازی دسترس‌پذیری رایانه واسط‌های کاربر رایانش پوشیدنی
همروندی	رایانش همزمان رایانش موازی رایانش توزیع‌شده چندریسمانی چندپردازشی
هوش مصنوعی	پردازش زبان‌های طبیعی بازنمود دانش بینایی رایانه‌ای برنامه‌ریزی خودکار بهینه‌سازی نظریه کنترل فلسفه هوش مصنوعی هوش مصنوعی توزیع شده استدلال خودکار زبان‌شناسی رایانشی یادگیری ماشین
یادگیری ماشین	یادگیری با نظارت یادگیری بی‌نظارت یادگیری تقویتی یادگیری چند-وظیفه‌ای روش اعتبارسنجی متقابل
گرافیک رایانه‌ای	پویانمایی رایانه‌ای رندرینگ (گرافیک رایانه‌ای) روتوش واحد پردازش گرافیکی واقعیت ترکیبی واقعیت مجازی فشرده‌سازی تصویر مدلسازی جامد
رایانش کاربردی	تجارت الکترونیک نرم‌افزار سازمانی ریاضیات محاسباتی فیزیک محاسباتی شیمی محاسباتی زیست‌شناسی محاسباتی علوم اجتماعی محاسباتی مهندسی و علم محاسبه انفورماتیک پزشکی هنر دیجیتال نشر الکترونیک جنگ مجازی رأی‌گیری الکترونیکی بازی ویدئویی واژه‌پرداز تحقیق در عملیات فناوری آموزشی سامانه مدیریت اسناد
توجه: بنا بر سامانه رده‌بندی رایانش ای‌سی‌ام علم رایانه همچنین می‌تواند به موضوع‌ها یا زمینه‌های گوناگون تقسیم شود. کتاب:علوم رایانه رده:علوم رایانه طرح کلی علوم رایانه ویکی‌پدیا:ویکی‌پروژه علوم رایانه ویکی‌انبار

ن ب و فرایندهای تصادفی
فرایند تصادفی	فرایند برنولی فرایند شاخه‌ای فرایند رستوران چینی فرایند گالتون-واتسون متغیرهای تصادفی مستقل با توزیع یکسان زنجیره مارکوف فرایند مورن ولگشت Loop-erased ولگشت خودپرهیز (قدم زدن بدون قطع کردن خود)
Continuous time	Bessel process Birth–death process فرایند وینر Bridge Excursion Fractional Geometric Meander فرایند کوشی Contact process گام-تصادفی زمان-پیوسته Cox process Diffusion process Empirical process فرایند فلر فرایند فلمینگ-ویوت Gamma process Hunt process Interacting particle systems Itô diffusion فرایند ایتو Jump diffusion Jump process فرایند لوی Local time Markov additive process McKean–Vlasov process فرایند اورنستین-یولنبک فرایند پواسون Compound فرایند پواسون فرایند پواسون تحول شرام و لونر Semimartingale Sigma-martingale Stable process Superprocess Telegraph process Variance gamma process فرایند وینر Wiener sausage
Both	فرایند شاخه‌ای Galves–Löcherbach model فرایند گاوسی مدل پنهان مارکف زنجیره مارکوف مارتینگیل Differences Local مارتینگیل مارتینگیل Random dynamical system Regenerative process نظریه تجدید Stochastic chains with memory of variable length نویز سفید
Fields and other	فرایند دیریکله Gaussian random field Gibbs measure شبکه هاپفیلد مدل آیزینگ Potts model شبکه بولی میدان تصادفی مارکفی نظریه تراوش فرایند پیتمن-یور فرایند نقطه ای Cox فرایند پواسون میدان تصادفی گراف تصادفی
سری زمانی	واریانس ناهمسانی شرطی اتورگرسیو میانگین متحرک خودهمبسته یکپارچه مدل خودهمبسته مدل خودهمبسته میانگین متحرک واریانس ناهمسانی شرطی اتورگرسیو مدل میانگین متحرک
Financial models	مدل بلک-درمن-توی Black–Karasinski مدل بلک-شولز مدل چن Constant elasticity of variance (CEV) مدل کاکس-اینگرسول-راس Garman–Kohlhagen Heath–Jarrow–Morton (HJM) Heston Ho–Lee Hull–White LIBOR market Rendleman–Bartter SABR volatility مدل واسیچک Wilkie
بیمسنجی	Bühlmann Cramér–Lundberg Risk process Sparre–Anderson
نظریه صفs	Bulk Fluid Generalized queueing network M/G/1 صف M/M/1 M/M/c
Properties	تابع Càdlàg Continuous Continuous paths ارگادیسیتی متغیرهای تصادفی تعویض پذیر Feller-continuous فرآیندهای تصادفی گاوسی-مارکوف خاصیت مارکف Mixing Piecewise deterministic Predictable Progressively measurable Self-similar فرایند مانا Time-reversible
Limit theorems	قضیه حد مرکزی Donsker's theorem Doob's martingale convergence theorems نظریه ارگودیک Fisher–Tippett–Gnedenko theorem Large deviation principle قانون اعداد بزرگ قانون لگاریتم‌های تکراری Maximal ergodic theorem Sanov's theorem
Inequalities	Burkholder–Davis–Gundy Doob's martingale Kunita–Watanabe
Tools	Cameron–Martin formula همگرایی متغیرهای تصادفی Doléans-Dade exponential Doob decomposition theorem Doob–Meyer decomposition theorem Doob's optional stopping theorem Dynkin's formula Feynman–Kac formula Filtration Girsanov theorem Infinitesimal generator Itô integral Itô's lemma Kolmogorov continuity theorem Kolmogorov extension theorem Lévy–Prokhorov metric Malliavin calculus Martingale representation theorem Optional stopping theorem Prokhorov's theorem Quadratic variation Reflection principle Skorokhod integral Skorokhod's representation theorem تابع Càdlàg Snell envelope معادله دیفرانسیل تصادفی Tanaka زمان توقف Stratonovich integral Uniform integrability Usual hypotheses Wiener space Classical Abstract
Disciplines	بیمسنجی اقتصادسنجی نظریه ارگودیک نظریه مقدار حدی قضیه انحرافات بزرگ مالیه ریاضیاتی آمار ریاضی نظریه احتمالات نظریه صف نظریه تجدید Ruin theory آمار حسابان تصادفی سری زمانی یادگیری ماشین
List of topics