پرش به محتوا

پیش‌نویس:یادگیری تقویتی/ Reinforcement Learning

از ویکی‌پدیا، دانشنامهٔ آزاد


منابع[ویرایش]

این مقاله در حال ترجمه از ویکی انگلیسی است، لطفا حذف نشود.

یادگیری تقویتی (RL) یکی از حوزه‌های یادگیری ماشین است که به چگونگی انجام اقداماتی توسط عوامل در یک محیط به منظور حداکثر کردن یک مفهوم پاداش تجمعی می‌پردازد. یادگیری تقویتی یکی از سه پارادایم اصلی یادگیری ماشین، در کنار یادگیری نظارت‌شده و یادگیری بدون نظارت است.


در یادگیری تقویتی، یک عامل یاد می‌گیرد که چگونه در یک محیط نامطمئن و بالقوه پیچیده به هدف خود برسد. در یک محیط ناشناخته، عامل ابتدا ممکن است نداند که کدام اقدامات را باید انجام دهد و باید با امتحان کردن آن‌ها کشف کند که کدام اقدامات بیشترین پاداش را به همراه دارند. این رویکرد آزمون و خطا شامل متعادل کردن دو فعالیت است: اکتشاف (از مناطق ناشناخته) و بهره‌برداری (از دانش فعلی). تعادل بین اکتشاف و بهره‌برداری یکی از موضوعات پرمطالعه در یادگیری تقویتی است.

یادگیری تقویتی با یادگیری نظارت‌شده تفاوت دارد زیرا نیازی به ارائه جفت‌های ورودی/خروجی صحیح نیست و اقدامات نامناسب نیاز به اصلاح ندارند. در عوض، تمرکز بر عملکرد است که شامل یافتن تعادل بین اکتشاف و بهره‌برداری می‌باشد.

ایده اصلی در یادگیری تقویتی، کسب بیشترین پاداش در طول زمان است. این پاداش ممکن است فوری باشد یا به تأخیر بیفتد. گاهی انجام عملی که پاداش فوری را کاهش می‌دهد می‌تواند به پاداش بزرگتری در آینده منجر شود. چنین اقداماتی به عنوان "اقدامات با پاداش تأخیری" شناخته می‌شوند.

برای اعمال یادگیری تقویتی به یک مسئله، معمولاً لازم است که مسئله را به صورت حالات، اقدامات، و پاداش‌ها فرموله کنیم. وظیفه عامل این است که یک سیاست یاد بگیرد، که یک نگاشت از حالات به اقدامات است، به گونه‌ای که پاداش تجمعی در طول زمان حداکثر شود.

الگوریتم‌های یادگیری تقویتی معمولاً در سیستم‌های خودمختار و رباتیک استفاده می‌شوند، جایی که آن‌ها به سیستم‌ها کمک می‌کنند تا یاد بگیرند چگونه بدون دخالت انسانی وظایف را انجام دهند. مثال‌ها شامل بازوهای رباتیک که یاد می‌گیرند اشیا را بگیرند، پهپادها که یاد می‌گیرند ناوبری کنند، و خودروهای خودران که یاد می‌گیرند رانندگی کنند.

یکی از چالش‌های کلیدی در یادگیری تقویتی تعادل بین اکتشاف و بهره‌برداری است. عوامل باید نیاز به اکتشاف محیط برای کشف اقدامات جدید که ممکن است پاداش‌های بیشتری به همراه داشته باشند را با نیاز به بهره‌برداری از اقدامات شناخته‌شده که در حال حاضر پاداش‌های بالایی به همراه دارند، متعادل کنند.

یک رویکرد رایج در یادگیری تقویتی استفاده از توابع ارزش برای تخمین پاداش آینده اقدامات مختلف و سپس استفاده از این تخمین‌ها برای هدایت اقدامات عامل است. یکی از الگوریتم‌های محبوب که از توابع ارزش استفاده می‌کند، Q-learning است که ارزش اقدامات در هر حالت را تخمین می‌زند و این تخمین‌ها را با کسب تجربه بیشتر توسط عامل به‌روزرسانی می‌کند.

رویکرد رایج دیگر استفاده از روش‌های گرادیان سیاست است که مستقیماً سیاست عامل را بر اساس گرادیان پاداش مورد انتظار تنظیم می‌کنند. این روش‌ها اغلب در محیط‌هایی با فضای عمل پیوسته استفاده می‌شوند، جایی که روش‌های تابع ارزش ممکن است کمتر مؤثر باشند.

پیشرفت‌های اخیر در یادگیری تقویتی روش‌های تابع ارزش را با تکنیک‌های یادگیری عمیق ترکیب کرده‌اند که به یادگیری تقویتی عمیق منجر شده است. یادگیری تقویتی عمیق در حوزه‌های مختلف از جمله بازی‌های رایانه‌ای (مثل AlphaGo)، کنترل رباتیک، و رانندگی خودران موفقیت‌های چشمگیری کسب کرده است.

یادگیری تقویتی همچنان به عنوان یک حوزه فعال تحقیقاتی ادامه دارد، با کارهای جاری که هدف آن‌ها بهبود کارایی و مقیاس‌پذیری الگوریتم‌ها و همچنین اعمال آن‌ها در حوزه‌های جدید و چالش‌برانگیز است. رده:مقاله‌های ایجاد شده توسط ایجادگر