خطای تعمیم

از ویکی‌پدیا، دانشنامهٔ آزاد

در کاربردهای یادگیری نظارت شده در یادگیری ماشینی، خطای تعمیم[۱] (به انگلیسی: Generalization error) معیاری برای ارزیابی میزان دقت یک الگوریتم در پیش‌بینی داده‌های از پیش دیده نشده‌ است. به دلیل این که الگوریتم‌های یادگیری توسط نمونه‌های محدودی ارزیابی می‌شوند، ارزیابی این الگوریتم‌ها به خطای نمونه‌گیری حساس است. در نتیجه، معیارهای پیش‌بینی با توجه به داده‌های کنونی ممکن است اطلاعات جدیدی در مورد توانایی پیش‌بینی در داده‌های جدید ارائه نکند. با اجتناب از بیش‌برازش می‌توان خطای تعمیم را کاهش داد. عملکرد یک الگوریتم یادگیری ماشین با تجسم نمودارهایی به نام منحنی فراگیری انجام می‌پذیرد که خطای تعمیم را در فرایند یادگیری تخمین می‌زنند.

تعریف[ویرایش]

هدف در یک مسئلهٔ یادگیری، یافتن تابع است که با توجه به دادهٔ ورودی ، خروجی را پیش‌بینی می‌کند. زیرنویس نشان می‌دهد که تابع براساس مجموعه‌ای شامل داده ساخته شده‌است. خطای تعمیم، برای تابع ، روی تمام مقادیر و برابر است با:[۲]

که در آن ، تابع هزینه و ، توزیع احتمال توأم برای و است.

بدون دانستن توزیع احتمال توأم، محاسبهٔ مقدار غیرممکن است. در عوض، می‌توانیم خطا را روی داده‌های نمونه محاسبه کنیم که به آن خطای تجربی می‌گویند. خطای تجربی با دانستن داده برابر است با:

و یک الگوریتم تعمیم‌پذیر خواهد بود اگر:

خطای تعمیم ، برای یک تابع وابسته به دادهٔ که توسط یک الگوریتم یادگیری بر اساس نمونه محاسبه شده‌است، از اهمیت زیادی برخوردار است. با توجه به این که محاسبهٔ مستقیم نیازمند دانستن توزیع احتمال است که ناشناخته است، هدف بسیاری از مسائل در نظریه یادگیری آماری محدود کردن یا مشخص کردن تفاوت خطای تعمیم و خطای تجربی است:

در نتیجه، هدف مشخص کردن احتمال است که بتوانیم خطای تعمیم را، با جمع خطای تجربی و یک کران خطا (در حالت کلی وابسته به و ) محدود کنیم. در بسیاری از الگوریتم‌ها، نشان داده شده‌است که یک الگوریتم، در صورتی که معیارهای ثبات خاصی را برآورده کند، دارای مرزهای تعمیم است. به‌طور خاص، اگر الگوریتمی متقارن باشد (ترتیب ورودی‌ها بر نتیجه تأثیری نگذارد)، تابع هزینهٔ محدودی داشته باشد و دو شرط پایداری را برآورده کند، تعمیم می‌یابد. این شرایط را می‌توان به صورت زیر بیان کرد:

پایداری اعتبارسنجی متقابل یک‌طرفه (به انگلیسی: Leave-one-out cross-validation)[ویرایش]

الگوریتم این ثبات را خواهد داشت اگر به ازای هر ، وجود داشته باشد و که:

و و زمانی که به صفر میل کنند.

پایداری امیدریاضی اعتبارسنجی یک‌طرفه (به انگلیسی: Expected-leave-one-out error Stability)[ویرایش]

الگوریتم این ثبات را خواهد داشت اگر به ازای هر ، وجود داشته باشد و که:

و و زمانی که به صفر میل کنند.

الگوریتم‌های پایدار اثبات‌شده (به انگلیسی: Algorithms with proven stability)[ویرایش]

ثابت شده‌است که تعدادی از الگوریتم‌ها پایدار هستند، و در نتیجه خطای تعمیم آن‌ها محدود است. فهرستی از این الگوریتم‌ها و مقالاتی که پایداری آن‌ها را ثابت کرده‌اند، اینجا موجود است.

ارتباط با بیش‌برازش[ویرایش]

این شکل، رابطه بین بیش‌برازش و خطای تعمیم را نشان می‌دهد I[fn] - IS[fn]. نقاط داده از رابطه y = x با نویز سفید اضافه شده به مقادیر y تولید شده‌اند.

مفاهیم خطای تعمیم و بیش‌برازش به هم مرتبط هستند. بیش‌برازش زمانی اتفاق می‌افتد که تابع به نویز داخل نمونه‌ها حساس شود. در نتیجه، این تابع روی مجموعهٔ آموزشی به خوبی عمل می‌کند، اما روی داده‌های دیگر که از توزیع احتمال مشترک و هستند، به خوبی عمل نمی‌کند؛ بنابراین، هرچه بیش‌برازش بیشتر باشد، خطای تعمیم هم بزرگتر خواهد بود.

میزان بیش‌برازش را می‌توان با استفاده از روش اعتبارسنجی متقابل محاسبه کرد، که نمونه‌ها را به نمونه‌های آموزشی و نمونه‌های آزمایشی تقسیم می‌کند. سپس مدل بر روی نمونه‌های آموزشی، آموزش داده می‌شود و بر روی نمونه‌های آزمایشی، ارزیابی می‌شود. نمونه‌های آزمایشی قبلاً توسط الگوریتم دیده نشده‌اند، بنابراین یک مجموعه نمونهٔ تصادفی از توزیع احتمال مشترک و خواهد بود. این مجموعه از نمونه‌های آزمایشی، به ما اجازه می‌دهد تا خطای مورد انتظار را تقریب بزنیم و تخمین خوبی از خطای تعمیم داشته باشیم.

الگوریتم‌های زیادی برای جلوگیری از بیش‌برازش وجود دارد. الگوریتم‌های کمینه‌سازی می‌توانند توابع پیچیده‌تری را جریمه کنند (معروف به منظم‌سازی تیخونوف) یا فضای فرضیه را می‌توان به صورت صریح، در قالب توابع یا با افزودن محدودیت‌هایی به تابع کمینه‌سازی (منظم‌سازی ایوانوف) محدود کرد.

یافتن تابعی که بیش‌برازش نداشته باشد، در تضاد با هدف یافتن تابعی است که به اندازه کافی پیچیده باشد تا ویژگی‌های داده‌ها را به تصویر بکشد. این به عنوان مبادله بایاس و واریانس معروف است. ساده نگه داشتن یک تابع برای جلوگیری از بیش‌برازش ممکن است باعث ایجاد بایاس در پیش‌بینی‌های به‌دست‌آمده شود، در حالی که پیچیده‌تر بودن آن منجر به بیش‌برازش و واریانس بیشتر خواهد شد و به حداقل رساندن هر دو به‌طور همزمان، غیرممکن است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. Y S. Abu-Mostafa, M.Magdon-Ismail, and H. -T. Lin (2012) Learning from Data, AMLBook Press. شابک ‎۹۷۸−۱۶۰۰۴۹۰۰۶۴
  2. Mohri, M. , Rostamizadeh A. , Talwakar A. , (2018) Foundations of Machine learning, 2nd ed. , Boston: MIT Press