یادگیری کارآموزی

از ویکی‌پدیا، دانشنامهٔ آزاد

در هوش مصنوعی، یادگیری کارآموزی (یا همان یادگیری از روش نمایش) فرایند یادگیری با مشاهده یک متخصص است.[۱][۲] می‌توان آن را به‌عنوان نوعی از یادگیری تحت نظارت در نظر گرفت، که در آن مجموعه داده‌های آموزشی از اجرای وظایف توسط یک معلم نمایشی تشکیل است.[۲]

رویکرد تابع نگاشت[ویرایش]

توابع نگاشت با ایجاد یک نگاشت مستقیم از حالات به اقدامات،[۲] یا از حالت‌ها به مقادیر پاداش دهی، از متخصص تقلید می‌کنند.[۱] به عنوان مثال، در سال ۲۰۰۲، محققان از این رویکرد برای آموزش مهارت‌های ابتدایی فوتبال به ربات AIBO استفاده کردند.[۲]

رویکرد یادگیری تقویتی معکوس[ویرایش]

یادگیری تقویتی معکوس (Inverse reinforcement learning) یا به اختصار IRL فرایند به دست آوردن تابع پاداش از رفتار مشاهده شده می‌باشد. در حالی که «یادگیری تقویتی» معمولی از پاداش و تنبیه برای یادگیری رفتار استفاده می‌کند، IRL بالعکس عمل می‌کند و ربات رفتار یک فرد را مشاهده می‌کند تا دریابد که شخص با آن رفتار قصد دارد به چه هدفی برسد.[۳] از مشکلات و چالش‌های IRL می‌توان به این موارد اشاره کرد:

1) اندازه‌گیری رفتار یک عامل در طول زمان، در شرایط مختلف. ۲) اندازه‌گیری ورودی‌های سنسور آن عامل. ۳) مدلی از محیط فیزیکی (از جمله بدن عامل): تعیین تابع پاداشی که عامل در حال بهینه‌سازی آن است.

محقق IRL، استوارت جی. راسل، می‌گوید ممکن است که IRL برای مشاهده انسان‌ها و تلاش برای کدگذاری «ارزش‌های اخلاقی» پیچیده آن‌ها، در تلاش برای ایجاد «ربات‌های اخلاق مدار» که ممکن است روزی متوجه باشند که «گربه خود را نپزند» بدون نیاز به اینکه صراحتاً برای آن‌ها توضیح داده شود استفاده شود.[۴] این سناریو را می‌توان به عنوان یک «بازی یادگیری تقویتی معکوس مشارکتی» مدلسازی کرد، که در آن یک بازیکن «انسان» و یک بازیکن «ربات» برای ایمن کردن اهداف ضمنی فرد با یکدیگر همکاری می‌کنند، با اینکه این اهداف مشخصا برای انسان و ربات شناخته نشده‌است.[۵][۶]

در سال ۲۰۱۷، OpenAI و DeepMind برای یادگیری تقویتی معکوس مشارکتی در مسائل ساده مانند بازی‌های آتاری و کارهای ساده ربات مانند، همچون backflip از یادگیری عمیق استفاده کردند. نقش انسان به پاسخ دادن و بازتاب دادن به سؤالات ربات محدود می‌شد که کدام یک از دو سناریوی مختلف ترجیح داده می‌شود. محققان شواهدی پیدا کردند که نشان می‌دهد ممکن است این تکنیک‌ها از نظر اقتصادی برای سیستم‌های مدرن مقیاس‌پذیر باشند.[۷][۸]

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ "Apprenticeship learning via inverse reinforcement learning". Pieter Abbeel, Andrew Ng, In 21st International Conference on Machine Learning (ICML). 2004.
  2. ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett (May 2009). "A survey of robot learning from demonstration". Robotics and Autonomous Systems. 57 (5): 469–483. CiteSeerX 10.1.1.145.345. doi:10.1016/j.robot.2008.10.024. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «survey» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
  3. Wolchover, Natalie. "This Artificial Intelligence Pioneer Has a Few Concerns". WIRED. Retrieved 22 January 2018.
  4. Havens, John C. (23 June 2015). "The ethics of AI: how to stop your robot cooking your cat". the Guardian. Retrieved 22 January 2018.
  5. "Artificial Intelligence And The King Midas Problem". Huffington Post. 12 December 2016. Retrieved 22 January 2018.
  6. Hadfield-Menell, D. , Russell, S. J. , Abbeel, Pieter & Dragan, A. (2016). Cooperative inverse reinforcement learning. In Advances in neural information processing systems (pp. 3909-3917).
  7. "Two Giants of AI Team Up to Head Off the Robot Apocalypse". WIRED. 7 July 2017. Retrieved 29 January 2018.
  8. Christiano, P. F. , Leike, J. , Brown, T. , Martic, M. , Legg, S. , & Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems (pp. 4302-4310).