آتاماتای یادگیر
این مقاله نیازمند ویکیسازی است. لطفاً با توجه به راهنمای ویرایش و شیوهنامه، محتوای آن را بهبود بخشید. (اکتبر ۲۰۱۳) |
آتاماتای یادگیر (به انگلیسی: Learning automaton) فرایند یادگیری موجودات زنده یکی از موضوعات تحقیقاتی جدید بهشمار میآید. این تحقیقات به دو دسته کلی تقسیم میشوند. دسته نخست به شناخت اصول یادگیری موجودات زنده و مراحل آن میپردازند و دسته دوم بدنبال ارائه یک متدولوژی برای قرار دادن این اصول در یک ماشین میباشند. یادگیری به صورت تغییرات ایجادشده در کارایی یک سیستم بر اساس تجربههای گذشته تعریف میشود. یک ویژگی مهم سیستمهای یادگیر، توانایی بهبود کارایی خود با گذشت زمان است. به بیان ریاضی میتوان اینطور عنوان کرد که هدف یک سیستم یادگیر، بهینهسازی وظیفهای است که کاملاً شناخته شده نیست؛ بنابراین یک رویکرد به این مسئله، کاهش اهداف سیستم یادگیر به یک مسئله بهینهسازی است که بر روی مجموعهای از پارامترها تعریف میشود و هدف آن پیدا کردن مجموعه پارامترهای بهینه میباشد.
در بسیاری از مسائل مطرح شده، اطلاعی از پاسخهای صحیح مسئله (که یادگیری با نظارت به آنها نیاز دارد) در دست نیست. به همین علت استفاده از یک روش یادگیری بنام یادگیری تقویتی مورد توجه قرار گرفتهاست. یادگیری تقویتی نه زیرمجموعه شبکههای عصبی است و نه انتخابی به جای آنها محسوب میشود. بلکه رویکردی متعامد برای حل مسائل متفاوت و مشکلتر بهشمار میرود. یادگیری تقویتی، از ترکیب برنامهنویسی پویا و یادگیری نظارتی برای دستیابی به یک سیستم قدرتمند یادگیری ماشین استفاده میکند. در یادگیری تقویتی هدفی برای عامل یادگیر مشخص میشود تا به آن دست یابد. آنگاه عامل مذکور یادمیگیرد که چگونه با آزمایشهای صحیح و خطا با محیط خود، به هدف تعیین شده برسد.[۱]
در یادگیری تقویتی یک عامل یادگیرنده در طی یادگیری با فعل و انفعالات مکرر با محیط، به یک سیاست کنترل بهینه میرسد. کارایی این فعل و انفعالات با محیط به وسیلهٔ بیشینه (کمینه) بودن پاداش (جریمه) عددی که از محیط گرفته میشود، ارزیابی میگردد. علاوه بر این روشهای یادگیری تقویتی، اولاً استفاده از یادگیری به روشی ساده، سیستماتیک و واقعی برای رسیدن به یک جواب تقریباً بهینه را بیان میکنند (پیدا کردن این جواب بهینه با استفاده از روشهای سنتی بسیار مشکل است). ثانیاً، دانشی که در طی فرایند یادگیری بدست میآید، در یک مکانیزم نمایش دانش مانند شبکه عصبی یا جدول مراجعه ذخیره میشود که از طریق آن میتوان با محاسبات اندک و با کارایی بالایی عمل تخصیص کانال را انجام داد. ثالثاً، از آنجایی که این روش یادگیری در محیطی بلادرنگ در حال انجام است، میتوان آن را همزمان با فعالیت محیط (مانند شبکه سلولی) انجام داد؛ که در این حالت با تمام رخدادهای پیشبینی نشده به صورت یک تجربه جدید برخورد میشود که میتوان از آنها برای بهبود کیفیت یادگیری استفاده کرد.[۲]
مزیت اصلی یادگیری تقویتی نسبت به سایر روشهای یادگیری عدم نیاز به هیچگونه اطلاعاتی از محیط (بجز سیگنال تقویتی).[۳] یکی از روشهای یادگیری تقویتی، اتوماتای یادگیر تصادفی است. اتوماتای تصادفی بدون هیچگونه اطلاعاتی دربارهٔ عمل بهینه (یعنی با در نظر گرفتن احتمال یکسان برای تمامیعملهای خود در آغاز کار) سعی در یافتن پاسخ مسئله دارد. یک عمل اتوماتا به صورت تصادفی انتخاب شده و در محیط اِعمال میگردد. سپس پاسخ محیط دریافت شده و احتمال عملها بر طبق الگوریتم یادگیری بِروز میشوند و روال فوق تکرار میگردد. اتوماتای تصادفی که به صورت فوق در جهت افزایش کارایی خود عمل کند، یک اتوماتای یادگیر تصادفی گفته میشود.
یک اتوماتای یادگیر را میتوان به صورت یک شئ مجرد که دارای تعداد متناهی عمل است، در نظر گرفت. اتوماتای یادگیر با انتخاب یک عمل از مجموعه عملهای خود و اِعمال آن بر محیط، عمل میکند. عمل مذکور توسط یک محیط تصادفی ارزیابی میشود و اتوماتا از پاسخ محیط برای انتخاب عمل بعدی خود استفاده میکند. در طی این فرایند اتوماتا یادمیگیرد که عمل بهینه را انتخاب نماید. نحوه استفاده از پاسخ محیط به عمل انتخابی اتوماتا که در جهت انتخاب عمل بعدی اتوماتا استفاده میشود، توسط الگوریتم یادگیری اتوماتا مشخص میگردد.