مبادله بایاس و واریانس
در علم یادگیری ماشین و مباحث آماری، دو مفهوم بایاس (اریبی) و واریانس حائز اهمیت است. درنتیجه مفهومی به نام مبادله بایاس و واریانس (Bias-variance tradeoff) به وجود میآید که بیانگر رابطه بین واریانس و بایاس با یکدیگر در مدلهای یادگیری ماشین است. بایاس نتیجهٔ خطا در انتخاب مدل است. در حالی که واریانس نتیجهٔ حساس بودن بیش از اندازه مدل به دادههای آموزش است. هریک از این دو، به نوعی مقدار خطای مدل آموزش داده شده را نشان میدهند. آنچه در هنگام آموزش یک مدل دنبال میشود، کم کردن هردوی بایاس و واریانس است. اما در واقعیت با کم کردن واریانس (که معادل با پیچیدهتر کردن مدل است) بایاس افزایش مییابد. همچنین با کاهش بایاس (که معادل با سادهتر کردن مدل است) واریانس افزایش مییابد. درواقع یک موازنه و مبادله بین مقادیر بایاس و واریانس وجود دارد و کاهش هردوی آنها امکانپذیر نیست. به این حالت تناقض بایاس-واریانس (Bias-Variance dilemma) گفته میشود.
بایاس یا همان اریبی، درواقع مقدار اختلاف تابع آموخته شده از تابع حقیقی را نشان میدهد. معمولاً زیاد بودن بایاس منجر به کمبرازش (underfitting) میشود و در نتیجه مدل حتی در دادههای آموزش نیز خروجی مورد انتظار را ندارد. برای مثال اگر تابع حقیقی باشد و روی داده آموزشی مدل را آموزش بدهیم، مقدار بایاس برابر با عبارت زیر خواهد بود.[۱]
واریانس به معنی میزان نوسانات مدل حول میانگین آن است. رابطه آن بهصورت زیر است.[۲]
درواقع مدلی که بر روی داده بهطور کلی آموزش میبیند و روی هر داده بهصورت بسیار دقیق تمرکز نمیکند، واریانس کمتری خواهد داشت. هرچه واریانس مدل بیشتر باشد، احتمال بیشبرازش (Overfitting) بیشتر خواهد بود. در تصویر زیر ارتباط بین بایاس و واریانس، و نقش آنها در ایجاد بیشبرازش یا کمبرازش بهطور شفاف مشخص شدهاست.
در یادگیری بانظارت کمبرازش هنگامی رخ میدهد که مدل در پیدا کردن الگوی دادهٔ ورودی ناموفق است. این مدلها عموما واریانس کم و بایاس زیاد دارند. البته نکته قابل توجه آن است که اگر مدلی دارای بایاس زیادی باشد، لزوما واریانس کمی ندارد و ممکن است واریانس مدل نیز زیاد باشد. برای مثال اگر سعی کنیم دادهای که به صورت خطی قابل تفکیک نیست را با استفاده از رگرسیون خطی تفکیک کنیم، این مشکل به وجود میآید، زیرا مدلهای رگرسیون خطی قادر به پیدا کردن الگوهای پیچیده در داده نیستند.
از طرفی، بیشبرازش زمانی رخ میدهد که مدل علاوه بر اطلاعات اصلی داده، به نویز نیز به مقدار قابل ملاحظهای توجه میکند و درصورتی که مجموعه داده دارای نویز زیادی باشد، عملکرد آن روی دادههایی که از قبل ندیده به شدت افت میکند. یکی از الگوریتمهای یادگیری ماشین که به نویز حساس هستند و میتوانند واریانس زیادی داشته باشند، درخت تصمیم است.
بررسی خطای میانگین مربعات از منظر بایاس و واریانس
[ویرایش]برای بررسی این بخش مسئله رگرسیون خطی را در نظر بگیرید. در این مسئله هدف پیدا کردن تابع است به طوری که با یادگیری بر روی دادههای بتواند در آینده به ازای داده ورودی خروجی را تخمین بزند. برای راحتتر شدن محاسبات تابع را بهصورت بازنویسی میکنیم. این مسئله گاهی به نام تعمیم en:Generalization (learning) شناخته میشود. حال در این مسئله برای بهدست آوردن میزان خطا میتوان از خطای میانگین مربعات استفاده کرد. درنتیجه میتوان میزان خطا را به صورت رابطه زیر بازنویسی کرد.
در طول زمان وابستگی به ثابت است، درنتیجه عبارت بالا بهصورت زیر نوشته میشود.
عبارت به تابع یا مجموعه داده بستگی ندارد و واریانس نسبت به است. درنتیجه خطای میانگین مربعات نسبت به معادل است با:
طبق روابط بالا ثابت میشود که
بخش اول عبارت مربوط به خطا برابر با توان دوم بایاس است. همچنین بخش دوم طبق تعریفی که در ابتدای این متن نیز بررسی شد بیانگر واریانس است. در نتیجه میتوان گفت[۳]
راهکارهای مقابله با خطای زیاد در مدل به واسطه بایاس و واریانس
[ویرایش]برای آنکه مدل بایاس زیادی نداشته باشد راهکارهای زیر قابل استفاده است.
- تغییر مدل و معماری: یکی از ابتداییترین راهکارها در مقابله با بایاس زیاد، تغییر مدل است. همانطور که پیشتر نیز اشاره شد استفاده از مدلهای خطی رگرسیون ممکن است باعث افزایش بایاس شوند.
- بررسی آنکه مجموعه داده نمایانگر تمام فضای حالات موجود است: درصورتی که در مجموعه داده آموزش، از تعدادی از کلاسها داده به اندازه کافی وجود نداشته باشد، مدل نمیتواند پیشبینی درستی از آنها داشته باشد. درصورتی که مجموعه داده توازن نداشته باشد، روشهایی مانند وزن دادن به داددههای موجود، اضافه کردن ضریب جریمه به تابع خطا، یا نمونه سازی مجدد (resampling) میتواند به بهبود عملکرد مدل کمک کند.
- تنظیم پارامترها: بااستفاده از بهینهسازی ابرپارامترها میتوان روند و سرعت یادگیری مدل را تغییر داد. درصورتی که این ابرپارامترها به درستی تنظیم نشوند، ممکن است یادگیری صورت نگیرد.
- تنظیم k در الگوریتم کی-نزدیکترین همسایه: در صورتی که مقدار k زیاد باشد بایاس افزایش مییابد.
برای آنکه مدل واریانس زیادی نداشته باشد راهکارهای زیر قابل استفاده است.
- استفاده از روشهای یادگیری گروهی (Ensemble Learning): در این روش، از تعداد زیادی مدل برای تخمین خروجی استفاده میشود و باتوجه به مجموع خروجی مدلها (که میتوانند همگی از یک نوع باشند یا چندین الگوریتم متفاوت داشته باشند) خروجی نهایی به دست آورده میشود.
- افزایش داده: افزایش داده باعث میشود یک قاعده و تابع کلیتر برای مدل کردن ورودی و خروجی پیدا شود. درواقع مدل در معرض دادههای نویزدار و بدون نویز بیشتری قرار میگیرد و عملکردش بهبود مییابد.
- تنظیم تعداد لایهها در شبکههای عصبی: در شبکههای عصبی با افزایش تعداد لایههای مدل، شبکه بر روی دادههای آموزش بیشبرازش میشود و در نتیجه عملکردش در زمان تست کاهش مییابد.
منابع
[ویرایش]- Neal, Brady (2019). On the Bias-Variance Tradeoff: Textbooks Need an Update. Department of Computer Science and Operations Research Faculy of Arts and Sciences.
- Geman, Stuart (1992). Neural Networks and the Bias/Variance Dilemma. Brown University.
- Alpaydin, Ethem (2014). Introduction to Machine Learning. The MIT Press Cambridge.
- Alpaydin, Ethem. "Ensemble Learning". National Key Laboratory for Novel Software Technology, Nanjing University.
{{cite journal}}
: Cite journal requires|journal=
(help)