آتاماتای یادگیر

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

فرایند یادگیری موجودات زنده یکی از موضوعات تحقیقاتی جدید بشمار می‌آید. این تحقیقات به دو دسته کلی تقسیم می‌شوند. دسته نخست به شناخت اصول یادگیری موجودات زنده و مراحل آن می‌پردازند و دسته دوم بدنبال ارائه یک متدولوژی برای قرار دادن این اصول در یک ماشین می‌باشند. یادگیری بصورت تغییرات ایجادشده در کارایی یک سیستم بر اساس تجربه‌های گذشته تعریف می‌شود‎. یک ویژگی مهم سیستمهای یادگیر، توانایی بهبود کارایی خود با گذشت زمان است. به بیان ریاضی می‌توان اینطور عنوان کرد که هدف یک سیستم یادگیر، بهینه‌سازی وظیفه‌ای است که کاملاً شناخته شده نیست. بنابراین یک رویکرد به این مسأله، کاهش اهداف سیستم یادگیر به یک مسأله بهینه‌سازی است که بر روی مجموعه‌ای از پارامترها تعریف می‌شود و هدف آن پیدا کردن مجموعه پارامترهای بهینه می‌باشد.

در بسیاری از مسائل مطرح شده، اطلاعی از پاسخهای صحیح مسأله (که یادگیری با نظارت به آنها نیاز دارد) در دست نیست. بهمین علت استفاده از یک روش یادگیری بنام یادگیری تقویتی مورد توجه قرار گرفته است. یادگیری تقویتی نه زیرمجموعه شبکه‌های عصبی است و نه انتخابی بجای آنها محسوب می‌شود. بلکه رویکردی متعامد برای حل مسائل متفاوت و مشکلتر بشمار می‌رود. یادگیری تقویتی، از ترکیب برنامه‌نویسی پویا و یادگیری نظارتی برای دستیابی به یک سیستم قدرتمند یادگیری ماشین استفاده می‌کند. در یادگیری تقویتی هدفی برای عامل یادگیر مشخص می‌شود تا به آن دست یابد. آنگاه عامل مذکور یاد می‌گیرد که چگونه با آزمایشهای صحیح و خطا با محیط خود، به هدف تعیین شده برسد‎[۱].

در یادگیری تقویتی یک عامل یادگیرنده در طی یادگیری با فعل و انفعالات مکرر با محیط، به یک سیاست کنترل بهینه می‌رسد. کارایی این فعل و انفعالات با محیط بوسیله بیشینه (کمینه) بودن پاداش (جریمه) عددی که از محیط گرفته می‌شود، ارزیابی می‌گردد. علاوه بر این روش‌های یادگیری تقویتی، اولاً استفاده از یادگیری به روشی ساده، سیستماتیک و واقعی برای رسیدن به یک جواب تقریباً بهینه را بیان می‌کنند (پیدا کردن این جواب بهینه با استفاده از روشهای سنتی بسیار مشکل است). ثانیاً، دانشی که در طی فرایند یادگیری بدست می‌آید، در یک مکانیزم نمایش دانش مانند شبکه عصبی یا جدول مراجعه ذخیره می‌شود که از طریق آن می‌توان با محاسبات اندک و با کارایی بالایی عمل تخصیص کانال را انجام داد. ثالثاً، از آنجایی که این روش یادگیری در محیطی بلادرنگ در حال انجام است، می‌توان آنرا همزمان با فعالیت محیط (مانند شبکه سلولی) انجام داد. که در این حالت با تمام رخدادهای پیش‌بینی نشده بصورت یک تجربه جدید برخورد می‌شود که می‌توان از آنها برای بهبود کیفیت یادگیری استفاده کرد‎[۲].

مزیت اصلی یادگیری تقویتی نسبت به سایر روشهای یادگیری عدم نیاز به هیچگونه اطلاعاتی از محیط (بجز سیگنال تقویتی)[۳]. یکی از روشهای یادگیری تقویتی، اتوماتای یادگیر تصادفی است. اتوماتای تصادفی بدون هیچگونه اطلاعاتی درباره عمل بهینه (یعنی با در نظر گرفتن احتمال یکسان برای تمامی‌عملهای خود در آغاز کار) سعی در یافتن پاسخ مسأله دارد. یک عمل اتوماتا بصورت تصادفی انتخاب شده و در محیط اِعمال می‌گردد. سپس پاسخ محیط دریافت شده و احتمال عملها بر طبق الگوریتم یادگیری بِروز می‌شوند و روال فوق تکرار می‌گردد. اتوماتای تصادفی که بصورت فوق در جهت افزایش کارایی خود عمل کند، یک اتوماتای یادگیر تصادفی گفته می‌شود.

یک اتوماتای یادگیر را می‌توان بصورت یک شئ مجرد که دارای تعداد متناهی عمل است، در نظر گرفت. اتوماتای یادگیر با انتخاب یک عمل از مجموعه عملهای خود و اِعمال آن بر محیط، عمل می‌کند. عمل مذکور توسط یک محیط تصادفی ارزیابی می‌شود و اتوماتا از پاسخ محیط برای انتخاب عمل بعدی خود استفاده می‌کند. در طی این فرایند اتوماتا یاد می‌گیرد که عمل بهینه را انتخاب نماید. نحوه استفاده از پاسخ محیط به عمل انتخابی اتوماتا که در جهت انتخاب عمل بعدی اتوماتا استفاده می‌شود، توسط الگوریتم یادگیری اتوماتا مشخص می‌گردد.

منابع[ویرایش]

  1. Mance, E. , and Stephanie, S. , H. , "Reinforcement learning: A tutorial," Wright Laboratory, 1996.
  2. Sutton, R. S. , and Barto, A.G. ; "Reinforcement learning: Introduction"; MIT Press, 1998
  3. Narendra K. S. , Thathachar M. A. L. ; "Learning automata: An introduction"; Prentice Hall, 1989