یادگیری تقویتی چندعاملی

از ویکی‌پدیا، دانشنامهٔ آزاد
دو تیم رقیب از عوامل صورت خاموش در یک مارن تجربه

یادگیری تقویتی چند عاملی (MARL) زیر مجموعه ای از یادگیری تقویتی است . و بر بررسی رفتار چندین عاملی که در یک محدوده مشترک وجود دارند، تمرکز دارد. [۱] هر عامل با به خاطر پاداش هایش انگیزه میگیرد و اقدام هایی را برای پیش بردن منافع خود انجام می دهد. امکان دارد این منافع با منافع بقیه عوامل اختلاف داشته باشد که منجر به پویایی پیچیده گروه می شود .

یادگیری تقویتی چند عاملی ارتباط نزدیکی با نظریه بازی و به ویژه بازی های تکراری دارد. مطالعه آن، جستجوی یافتن الگوریتم‌های ایدئال را که پاداش‌ها را به حداکثر می‌رسانند، با مجموعه‌ای جامعه‌شناختی از مفاهیم ترکیب می‌کند. در حالی که تحقیق در یادگیری تقویتی تک عاملی به یافتن الگوریتمی می‌پردازد که بیشترین امتیاز را برای یک عامل کسب می‌کند، تحقیقات در یادگیری تقویت چند عاملی معیارهای اجتماعی مانند همکاری,[۲] متقابل,[۳] حقوق صاحبان سهام,[۴] نفوذ اجتماعی,[۵] زبان[۶] و تبعیض را ارزیابی و کمی می‌کند.[۷]

تعریف[ویرایش]

مشابه یادگیری تقویت تک عامل, یادگیری تقویتی چند عاملی به عنوان فرآیند تصمیم گیری فرایند تصمیم گیری مارکوف مدل می شود:

  • مجموعه ای از حالت های محیطی .
  • یک مجموعه از اقدامات برای هر یک از عوامل .
  • احتمال انتقال است (در زمان ) از حالت به حالت تحت اقدام مشترک .
  • پاداش مشترک فوری پس از انتقال از است به با اقدام مشترک .

در تنظیمات با اطلاعات کامل مانند بازی های شطرنج و برو گروه دموکراتیک کاملاً قابل مشاهده است. در تنظیمات با اطلاعاتی که کامل نیست، به ویژه در برنامه های کاربردی دنیای واقعی مانند اتومبیل های خودران, هر عامل به مشاهده ای دسترسی خواهد داشت که فقط قسمتی از اطلاعات مربوط به وضعیت فعلی را دارد.

همکاری در مقابل رقابت[ویرایش]

هنگامی که چندین عامل در یک محیط مشترک عمل می کنند، ممکن است علایق آنها همسو یا نادرست باشد. MARL اجازه می دهد تا تمام هم ترازی های مختلف و نحوه تأثیر آنها بر رفتار عامل ها را بررسی کنید:

  • در تنظیمات رقابت خالص پاداش های نمایندگان دقیقا مخالف یکدیگر هستند و بنابراین بازی می کنند در برابر همدیگر را.
  • تنظیمات همکاری خالص افراطی دیگر هستند که عوامل دقیقا همان پاداش ها را دریافت می کنند و بنابراین بازی می کنند با همدیگر را.
  • تنظیمات مختلط پوشش تمام بازی های که ترکیب عناصر از هر دو همکاری و رقابت.

تنظیمات رقابت خالص[ویرایش]

هنگامی که دو عامل در حال بازی یک بازی با حاصل جمع صفر در رقابت محض با یکدیگر هستند. بسیاری از بازی های سنتی مانند شطرنج و برو سقوط تحت این دسته, به عنوان انجام انواع دو نفره از بازی های مدرن مانند استارکرافت. از آنجایی که هر نماینده فقط می تواند با هزینه نماینده دیگر برنده شود، بسیاری از پیچیدگی ها از بین می روند. هیچ چشم‌اندازی برای ارتباط یا دوراهی‌های اجتماعی وجود ندارد، زیرا هیچ یک از نمایندگان برای انجام اقداماتی که به نفع حریف خود هستند، تشویق نمی‌شوند.

این دیپ بلو[۸] و الفاگو پروژه ها نشان می‌دهند که چگونه می‌توان عملکرد عوامل را در تنظیمات رقابتی خالص بهینه کرد.

یکی از پیچیدگی‌هایی که در محیط‌های رقابتی محض از بین نمی‌رود،اتوکورریکول است. برنامه‌های آموزشی خودکار است. همانطور که خط مشی عوامل با استفاده از خود بازی, ممکن است چندین لایه یادگیری رخ دهد.

تنظیمات همکاری خالص[ویرایش]

MARL برای بررسی چگونگی ارتباط عوامل مجزا با علایق یکسان و همکاری با یکدیگر استفاده می شود. تنظیمات همکاری خالص بازی‌های تعاونی تفریحی مورد بررسی قرار می گیرد مانند بازی های تعاونی و بیش از حد پخته شده,[۹] و همچنین سناریوهای دنیای واقعی در رباتیک بررسی می‌شوند.[۱۰]

در محیط‌های همکاری خالص، همه عوامل پاداش‌های یکسانی دریافت می‌کنند، به این معنی که معضلات اجتماعی رخ نمی‌دهد.

تنظیمات مختلط[ویرایش]

اکثر سناریوهای دنیای واقعی که شامل چندین عامل است، عناصری از همکاری و رقابت دارند. برای مثال وقتی چند اتومبیل های خودران در حال برنامه ریزی مسیرهای مربوط به خود هستند که هر یک از آنها علایق متفاوتی دارند اما منحصر به فرد نیستند: هر خودرو مدت زمان لازم برای رسیدن به مقصد را به حداقل می رساند، اما همه خودروها دارای علاقه مشترکی برای اجتناب از برخورد ترافیک هستند.[۱۱]

تنظیمات مختلط می تواند منجر به مشکلات ارتباطی و اجتماعی شود.

معضلات اجتماعی[ویرایش]

همانطور که در نظریه بازی ها , بسیاری از تحقیقات در MARL حول معضلات اجتماعی, مانند معضل زندانیان,[۱۲] مرغ و شکار گوزن می چرخد.[۱۳]

در حالی که تحقیقات تئوری بازی ممکن است بر تعادل نش و اینکه یک سیاست ایدئال برای یک عامل می‌تواند باشد تمرکز کند، تحقیقات MARL بر چگونگی یادگیری این سیاست‌های ایدئال با استفاده از فرآیند آزمون و خطا تمرکز دارد. الگوریتم‌های یادگیری تقویتی که برای آموزش عوامل استفاده می‌شوند، پاداش خود عامل را به حداکثر می‌رسانند. تضاد بین نیازهای عوامل و نیازهای گروه موضوع تحقیق فعال است.[۱۴]

تکنیک های مختلف به منظور القای همکاری در عوامل مورد بررسی قرار گرفته است: اصلاح قوانین محیطی,[۱۵] افزودن پاداش‌های درونی,[۱۶] و موارد دیگر.

معضلات اجتماعی متوالی[ویرایش]

معضلات اجتماعی مانند معضل زندانی، شکار مرغ و گوزن «بازی‌های ماتریسی» هستند. هر عامل تنها یک اقدام را از بین دو اقدام ممکن انجام می‌دهد و یک ماتریس ساده 2x2 برای توصیف پاداشی که هر عامل با توجه به اقداماتی که هر عامل انجام می‌دهد، استفاده می‌شود.

در انسان ها و دیگر موجودات زنده، معضلات اجتماعی پیچیده تر هستند. عوامل در طول زمان اقدامات متعددی را انجام می دهند و تمایز بین همکاری و نقص به اندازه بازی های ماتریس واضح نیست. مفهوم یک معضل اجتماعی متوالی در سال 2017 [۱۷] به عنوان تلاشی برای مدل سازی این پیچیدگی معرفی شد. تحقیقات مداومی برای تعریف انواع SSD ها و نشان دادن رفتار مشارکتی در عواملی که در آنها عمل می کنند وجود دارد.[۱۸]

اتوکورریکول[ویرایش]

برنامه خودکار[۱۹] (جمع: برنامه های خودکار) یک مفهوم یادگیری تقویتی است که در آزمایش‌های چند عاملی برجسته است. همانطور که عوامل عملکرد خود را بهبود می بخشند، محیط خود را تغییر می دهند. این تغییر در محیط بر خود و سایر عوامل تأثیر می گذارد. حلقه بازخورد منجر به چندین مرحله مجزا از یادگیری می شود که هر کدام به مرحله قبلی بستگی دارد. لایه های انباشته یادگیری، خود درسی نامیده می شود. برنامه‌های آموزشی خودکار به‌ویژه در محیط‌های متخاصم، [۲۰] که در آن هر گروه از عوامل برای مقابله با استراتژی فعلی گروه مقابل رقابت می‌کنند، آشکار است.

بازی Hide and Seek یک نمونه قابل دسترس از یک برنامه خودکار است که در یک محیط خصمانه اتفاق می افتد. در این تجربه، گروهی از جویندگان در حال رقابت با گروهی از مخفی کنندگان هستند.زمانی که یکی از گروه ها نقشه جدیدی را یاد می گیرد، گروه مقابل نقشه خود را برای ارائه بهترین ضد ممکن تطبیق می دهد. زمانی که مخفی کنندگان یاد می‌گیرند که از جعبه‌ها برای درست کردن پناهگاه استفاده کنند، جویندگان با یادگیری استفاده از سطح شیب دار برای نفوذ به آن پناهگاه پاسخ می‌دهند. مخفی کننده‌ها با قفل کردن رمپ‌ها پاسخ می‌دهند و آن‌ها را برای استفاده جویندگان از دسترس خارج می‌کنند. سپس جویندگان با «گشت‌سواری در جعبه» پاسخ می‌دهند و از یک نقص در بازی برای نفوذ به پناهگاه سوء استفاده می‌کنند. هر «سطح» یادگیری یک اتفاق جدید است که سرآغاز آن مرحله قبلی است. این منجر به مجموعه ای از رفتارها می شود که هر کدام به سلف خود وابسته هستند.

برنامه های خودکار در تجربیات یادگیری تقویتی با مراحل مقایسه می شوند تکامل زندگی روی زمین و توسعه فرهنگ انسانی. یک مرحله مهم در تکامل 2-3 میلیارد سال پیش اتفاق افتاد اشکال زندگی فتوسنتز کننده شروع به تولید مقادیر عظیم از اکسیژن, تغییر تعادل گازها در جو.[۲۱] در مراحل بعدی تکامل, اشکال زندگی اکسیژن تنفس تکامل یافته, در نهایت منجر به زمین پستانداران و انسان است. این مراحل بعد تنها پس از مرحله فتوسنتز اکسیژن به طور گسترده ای در دسترس ساخته شده اتفاق می افتد. به طور مشابه, فرهنگ انسانی نمی تواند از طریق رفته انقلاب صنعتی در قرن 18 بدون منابع و بینش های کسب شده توسط انقلاب کشاورزی در حدود 10000 سال قبل از میلاد.[۲۲]

محدودیت ها[ویرایش]

بعضی از مشکل های ذاتی در مورد یادگیری تقویت عمیق[۲۳] چند عاملی وجود دارد. محیط زیست است ساکن نیست, بنابراین املاک مارکوف نقض می شود: انتقال و پاداش تنها به وضعیت فعلی یک عامل بستگی ندارد.

نرم افزار[ویرایش]

وسیله ها و چارچوب های متفاوتی برای کار با محیط های یادگیری تقویت کننده چند عامل وجود دارد:

مطالعه بیشتر[ویرایش]

منابع[ویرایش]

  1. Albrecht, Stefano; Stone, Peter (2017), "Multiagent Learning: Foundations and Recent Trends. Tutorial", IJCAI-17 conference (PDF)
  2. Lowe. "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments". arXiv:1706.02275v4.
  3. Baker, Bowen (2020). "Emergent Reciprocity and Team Formation from Randomized Uncertain Social Preferences". NeurIPS 2020 proceedings. arXiv:2011.05373.
  4. Hughes, Edward; Leibo, Joel Z.; et al. (2018). "Inequity aversion improves cooperation in intertemporal social dilemmas". NeurIPS 2018 proceedings. arXiv:1803.08884.
  5. Jaques, Natasha; Lazaridou, Angeliki; Hughes, Edward; et al. (2019). "Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning". Proceedings of the 35th International Conference on Machine Learning. arXiv:1810.08647.
  6. Lazaridou, Angeliki (2017). "Multi-Agent Cooperation and The Emergence of (Natural) Language". ICLR 2017. arXiv:1612.07182.
  7. Duéñez-Guzmán. "Statistical discrimination in learning agents". arXiv:2110.11404v1.
  8. Campbell, Murray; Hoane, A. Joseph, Jr.; Hsu, Feng-hsiung (2002). "Deep Blue". Artificial Intelligence. Elsevier. 134 (1–2): 57–83. doi:10.1016/S0004-3702(01)00129-1. ISSN 0004-3702.
  9. Carroll. "On the Utility of Learning about Humans for Human-AI Coordination". arXiv:1910.05789.
  10. Xie, Annie; Losey, Dylan; Tolsma, Ryan; Finn, Chelsea; Sadigh, Dorsa (November 2020). Learning Latent Representations to Influence Multi-Agent Interaction (PDF). CoRL.
  11. Shalev-Shwartz. "Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving". arXiv:1610.03295.
  12. Sandholm, Toumas W.; Crites, Robert H. (1996). "Multiagent reinforcement learning in the Iterated Prisoner's Dilemma". Biosystems. 37 (1–2): 147–166. doi:10.1016/0303-2647(95)01551-5. PMID 8924633.
  13. Peysakhovich, Alexander; Lerer, Adam. "Prosocial Learning Agents Solve Generalized Stag Hunts Better than Selfish Ones". AAMAS 2018. arXiv:1709.02865.
  14. Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; et al. (2020). "Open Problems in Cooperative AI". NeurIPS 2020. arXiv:2012.08630.
  15. Köster, Raphael; Hadfield-Menell, Dylan; Hadfield, Gillian K.; Leibo, Joel Z. "Silly rules improve the capacity of agents to learn stable enforcement and compliance behaviors". AAMAS 2020. arXiv:2001.09318.
  16. Hughes, Edward; Leibo, Joel Z.; et al. (2018). "Inequity aversion improves cooperation in intertemporal social dilemmas". NeurIPS2018 proceedings. arXiv:1803.08884.
  17. leibo, Joel Z.; Zambaldi, Vinicius; Lanctot, Marc; Marecki, Janusz; Graepel, Thore (2017). "Multi-agent Reinforcement Learning in Sequential Social Dilemmas". AAMAS 2017. arXiv:1702.03037.
  18. Badjatiya. "Inducing Cooperative behaviour in Sequential-Social dilemmas through Multi-Agent Reinforcement Learning using Status-Quo Loss". arXiv:2001.05458.
  19. Leibo, Joel Z.; Hughes, Edward; et al. (2019). "Autocurricula and the Emergence of Innovation from Social Interaction: A Manifesto for Multi-Agent Intelligence Research". arXiv:1903.00742v2 [cs.Al].
  20. Baker, Bowen; et al. (2020). "Emergent Tool Use From Multi-Agent Autocurricula". ICLR 2020. arXiv:1909.07528.
  21. Kasting, James F; Siefert, Janet L (2002). "Life and the evolution of earth's atmosphere". Science. 296 (5570): 1066–1068. Bibcode:2002Sci...296.1066K. doi:10.1126/science.1071184. PMID 12004117.
  22. clark, Gregory (2008). A farewell to alms: a brief economic history of the world. Princeton University Press. ISBN 978-0-691-14128-2.
  23. Hernandez-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (2019-11-01). "A survey and critique of multiagent deep reinforcement learning". Autonomous Agents and Multi-Agent Systems (به انگلیسی). 33 (6): 750–797. arXiv:1810.05587. doi:10.1007/s10458-019-09421-1. ISSN 1573-7454.