خودبازی (هوش مصنوعی)

خودبازی روشی است برای بهبود عملکرد عامل‌های یادگیری تقویتی. به‌طور شهودی، عوامل یادمی‌گیرند که با بازی کردن «در مقابل خودشان»، عملکرد خود را بهبود بخشند.

تعریف و انگیزه[ویرایش]

در آزمایش‌های یادگیری تقویتی چند عاملی، محققان تلاش می‌کنند تا عملکرد یک عامل یادگیری را در یک کار معین، با همکاری یا رقابت در کنار یک یا چند عامل دیگر، بهینه کنند. این عوامل با آزمون و خطا آموزش می‌بینند و بهتر می‌شوند و یادمی‌گیرند. محققان آزدای انتخاب دارند و می‌توانند تصمیم بگیرند که الگوریتم یادگیری نقش دو یا چند عامل مختلف را ایفا کند. وقتی این تکنیک با موفقیت اجرا شود، یک مزیت مضاعف دارد:

منجر به یک چالش معنادار می‌شود، زیرا که برای تعیین اقدامات سایر عوامل یک راه ساده و دست‌یافتنی.
میزان تجربه ای را که می‌توان برای بهبود خط‌مشی استفاده کرد به میزان دو تا چند برابر افزایش می‌دهد، زیرا از دیدگاه همه عوامل بازی می‌توان برای یادگیری استفاده کرد.

مقاله Czarnecki و همکاران^[۱] بر این باور است که بیشتر بازی‌هایی که مردم برای سرگرمی انجام می‌دهند «بازی‌های مهارت» هستند. بدین معنی که در «بازی‌های مهارت» فضای همه استراتژی‌های ممکن در آنها شبیه یک فرفره است.

جزئیات علمی مقاله این مسئله به صورت تحلیلی زیر خلاصه می‌شود:

می‌توانیم فضای استراتژی‌ها را به مجموعه‌ها $L_{1},L_{2},...,L_{n}$ تقسیم کنیم
به طوری که $i<j,\pi _{i}\in L_{i},\pi _{j}\in L_{j}$
و استراتژی $\pi _{j}$ استراتژی $\pi _{i}$ را شکست می‌دهد
در نتیجه، در خودبازی مبتنی بر جمعیت، اگر جمعیت بیشتر از $\max _{i}|L_{i}|$ باشد، آنگاه الگوریتم به بهترین استراتژی ممکن همگرا می‌شود.

کاربرد[ویرایش]

برنامه آلفا زیرو برای بهبود عملکرد خود در بازی‌های شطرنج، شوگی و گو از خودبازی استفاده می‌کند.^[۲]

خودبازی، برای آموزش سیستم هوش مصنوعی Cicero نیز استفاده می‌شود تا در بازی دیپلماسی (بازی) از انسان‌ها پیشی بگیرد. این تکنیک در آموزش سیستم DeepNash نیز با هدف بازی در فتح پرچم استفاده می‌شود.^[۳]^[۴]

ارتباط با سایر رشته‌ها[ویرایش]

عموماً خودبازی را با مفهوم معرفت‌شناختی لوح سفید مقایسه می‌کنند. این مفهوم، روشی را توصیف می‌کند که انسان‌ها دانش را از یک «لوح خالی» کسب می‌کنند.^[۵]

مطلعات بیشتر[ویرایش]

DiGiovanni, Anthony; Zell, Ethan; et al. (2021). "Survey of Self-Play in Reinforcement Learning". arXiv:2107.02850 [cs.GT].

منابع[ویرایش]

↑ Czarnecki, Wojciech M.; Gidel, Gauthier; Tracey, Brendan; Tuyls, Karl; Omidshafiei, Shayegan; Balduzzi, David; Jaderberg, Max (2020). "Real World Games Look Like Spinning Tops". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 17443–17454.
↑ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].
↑ Snyder, Alison (2022-12-01). "Two new AI systems beat humans at complex games". Axios (به انگلیسی). Retrieved 2022-12-29.
↑ Erich_Grunewald, "Notes on Meta's Diplomacy-Playing AI", LessWrong (به انگلیسی)
↑ Laterre, Alexandre (2018). "Ranked Reward: Enabling Self-Play Reinforcement Learning for Combinatorial Optimization". arXiv:1712.01815 [cs.AI].

[1] Czarnecki, Wojciech M.; Gidel, Gauthier; Tracey, Brendan; Tuyls, Karl; Omidshafiei, Shayegan; Balduzzi, David; Jaderberg, Max (2020). "Real World Games Look Like Spinning Tops". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 17443–17454.

[2] Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].

[3] Snyder, Alison (2022-12-01). "Two new AI systems beat humans at complex games". Axios (به انگلیسی). Retrieved 2022-12-29.

[4] Erich_Grunewald, "Notes on Meta's Diplomacy-Playing AI", LessWrong (به انگلیسی)

[5] Laterre, Alexandre (2018). "Ranked Reward: Enabling Self-Play Reinforcement Learning for Combinatorial Optimization". arXiv:1712.01815 [cs.AI].

[۱]

[۲]

[۳]

[۴]

[۵]