الگوریتم لمکه-هاوسون

از ویکی‌پدیا، دانشنامهٔ آزاد

الگوریتم لمکه-هاوسون[۱] الگوریتمی برای محاسبه تعادل نش در بازی دوماتریسی (ماتریسی که در هر خانه‌اش دو عنصر دارد) است گفته می‌شود که این الگوریتم بهترین الگوریتم ترکیبیاتی برای یافتن تعادل نش است.[۲]

الگوریتم[ویرایش]

ورودی الگوریتم یک بازی دو نفره G است. بازی G به صورت دو ماتریس n × m با نام A و B داده می‌شود که هر کدام از آنها شامل نتایج نهایی برای یکی از بازیکنان شماره ۱ و ۲ است که هر کدام به ترتیب، m و n استراتژی خالص دارند. در ادامه فرض می‌کنیم که نتایج مثبت هستند (هر بازی با تغییر مقیاس می‌تواند به بازی برابری از نظر استراتژی با نتایج مثبت تبدیل شود).

بازی G دو چند وجهی متناظر دارد (که بهترین پاسخ بین چند وجهی‌ها نامیده می‌شوند)، به اسم‌های P۱ و P۲ که هر کدام به ترتیب m و n بعد دارند. در ادامه به تعریف این دو ماتریس می‌پردازیم.

ماتریس P۱ در Rm است. فرض کنید {x۱,... ,xm} مختصات را نشان می‌دهد. P۱ به وسیله m نامساوی xi ≥ ۰ برای همه {i ∈ {۱، ... , m و n نامساوی B۱،jx۱+... +Bm,jxm ≤ ۱ برای همه {j ∈ {۱، ... , n تعریف می‌شود.

ماتریس P۲ در Rn است. فرض کنید {xm, ... , xm+n} مختصات را نشان می‌دهد. P۲ به وسیله n نامساوی xm+i ≥ ۰ برای همه {i ∈ {۱، ... , n و m نامساوی Ai،۱xm+... +Ai,nxm+n ≤ ۱ برای همه {i ∈ {۱، ... , m تعریف می‌شود.

ماتریس P۱ نشان‌دهنده مجموعه توزیع‌های احتمالاتی نُرمالایز نشده برای m استراتژی بازیکن اول است، هنگامی که نتیجه مورد انتظار بازیکن دوم حداکثر یک باشد. برای برقراری m شرط اول باید احتمالات نامنفی باشند و هر یک از n شرط بعد هم باعث می‌شود که n استراتژی خالص بازیکن دوم نتایجی با مقدار حداکثر یک داشته باشند. اگر نقش دو بازیکن را با هم عوض کنیم، ماتریس P۲ نیز به همین ترتیب تعریف می‌شود.

هر رأس v از ماتریس P۱، با مجموعه‌ای از برچسب‌ها (مقادیر) از مجموعه {۱،... ,m + n}، در ارتباط است. برای هر {i ∈ {۱، ... , m رأس v برچسب «i» را می‌پذیرد در صورتی که در رأس v شرط «xi = ۰» برقرار باشد. برای هر j ∈ {۱، …, n}، v برچسب «m + j» را می‌پذیرد در صورتی که شرط «B۱،jx۱ + ...  + Bm,jxm = ۱» برقرار باشد. فرض کنید که P۱ غیر تبهگن (nondegenerate) باشد، هر رأس بر m بعد از ماتریس P۱ واقع است و m برچسب دارد. دقت کنید که ریشه که خود یک رأس از P۱ می‌باشد، برچسب‌های {۱، …, m} را دارد.

هر رأس w از از ماتریس P۲ با مجموعه‌ای از برچسب‌ها از مجموعه {۱، …, m + n}، در ارتباط است. برای هر {j ∈ {۱، …, n رأس w برچسب «m + j» را می‌پذیرد در صورتی که در رأس w شرط « xm+j = ۰» برقرار باشد. برای هر i ∈ {۱، …, m}، w برچسب «i» را می‌پذیرد در صورتی که شرط «Ai،۱xm + ...  + Ai,nxm+n = ۱» برقرار باشد. فرض کنید که P۲ غیر تبهگن باشد، هر رأس بر m بعد از ماتریس P۲ واقع است و m برچسب دارد دقت کنید که ریشه که خود یک رأس از P۲ می‌باشد، برچسب‌های {m + ۱، …, m + n} را دارد.

عمل محوری شامل گرفتن زوج مرتبی مانند (v, w)، و عوض کردن v با یکی از همسایه‌هایش در P۱ است یا عوض کردن w با یکی از همسایه‌هایش در P۲. در عمل محوری رأسی که عوض می‌شود را رها شده می‌نامیم. مثلاً اگر طی یک عمل محوری یک رأس از P۱ جایگزین v شود، به اصطلاح می‌گوییم «v رها می‌شود». به ازای هر مقدار از v، می‌شود با انتقال به یک رأس همسایه که شامل ابرصفحه مرتبط با آن برچسب نباشد، آن برچسب را رها کرد.

الگوریتم از زوج (v, w) شروع می‌شود که کاملاً برچسب‌گذاری (مقدار دهی) شده است که این زوج شامل زوج ریشه‌ها می‌باشد. برچسب دلخواه g را به دلخواه با انجام یک عمل محوری رها می‌کنیم. در نتیجه زوج مرتب ما به زوج تقریباً برچسب‌گذاری شدهٔ (’v’, w) تبدیل می‌شود (زوجی که تنها یک عنصر برچسب‌گذاری نشده دارد).

هر زوج تقریباً برچسب‌گذاری شده (زوج مرتبی که تنها یک عنصر برچسب‌گذاری نشده دارد) دو عمل محوری می‌پذیرد که این عمل متناظر با رها کردن یک عنصر یا ایجاد یک کپی از برچسب‌های تکراری آن زوج می‌باشد. هر یک از این اعمال سرانجام به یک زوج کاملاً یا تقریباً برچسب‌گذاری شده ختم می‌گردد. در نهایت الگوریتم زوج مرتب کاملاً برچسب‌گذاری شدهٔ (*v*, w) را بدست می‌آورد که مخالف ریشه است. زوج مرتب (*v*, w) با یک زوج مرتب از توزیع‌های احتمالاتی نُرمالایز نشده متناظر است که در آن هر استراتژیِ بازیکن شماره یک مانند «i»، یا به بازیکن شماره یک می‌پردازد یا باید کمتر از یک واحد بپردازد و بازی با احتمال ۰ توسط آن بازیکن (بازیکن شماره یک) انجام می‌شود (برای بازیکن شماره دو نیز به همین ترتیب). با نُرمالایز کردن این مقادیر به توزیع‌های احتمال، تعادل نش بدست می‌آید (که در آن مقدار پرداختی به بازیکنان برابر وارون عوامل نرمال سازی می‌باشد).

خصوصیات الگوریتم[ویرایش]

این الگوریتم حداکثر می‌تواند تا «n + m» تعادل نش متفاوت بیابد. هر برچسبی که در مرحله اولیه برای رها شدن انتخاب شود، تعیین کننده تعادل نشی است که الگوریتم می‌یابد. الگوریتم لمکه-هاوسون معادل رویکرد مبتنی بر هوموتوپی زیر است. بازیِ G را اینگونه تغییر می‌دهیم که یک استراتژی خالص دلخواه مانند g را انتخاب می‌کنیم و به بازیکنی که آن استراتژی را داشت مقدار زیاد «B» را می‌پردازیم تا حتماً آن را بازی کند. در این بازی تغییر یافته، می‌دانیم که استراتژی g با احتمال ۱ به وقوع می‌پیوندد و بازیکن مقابل نیز در جواب با احتمال ۱ بهترین بازی ممکن خود را انجام می‌دهد. زنجیره‌ای از بازی را در نظر بگیرید که در آن B به طور مداوم کاهش می‌یابد و به صفر میل می‌کند. یک مسیر تعادل نش وجود دارد که تعادل نش منحصربه‌فرد بازی جدید را به تعادلی در بازی اصلی G می‌رساند. استراتژی خالص انتخاب شدهٔ g برای دریافت جایزهٔ B، به برچسبی که در ابتدا رها می‌شود بستگی دارد[۳].

در حالی که این الگوریتم در عمل بهینه و کارآمد است، در بدترین حالت تعداد عملیات محوری لازم ممکن است تابعی نمایی از تعداد تمام استراتژی‌های خالص بازی باشد[۴]. متعاقباً نشان داده شده است که یافتن هر جوابی که با الگوریتم لمکه-هاوسون بدست می‌آید PSPACE-complete می‌باشد[۵].

منابع[ویرایش]

  1. C. E. Lemke and J. T. Howson (1964). "Equilibrium points of bimatrix games". SIAM Journal on Applied Mathematics. 12 (2): 413–423.
  2. Nisan, Noam; Roughgarden, Tim; Tardos, Éva; Vazirani, Vijay V. (2007). Algorithmic Game Theory (PDF). Cambridge, UK: Cambridge University Press. p. 33. ISBN 0-521-87282-0.
  3. P. J-J. Herings and R. Peeters (2010). "Homotopy methods to compute equilibria in game theory".  Economic Theory 42 (1): 119–156.  doi:10.1007/s00199-009-0441-5.
  4. R. Savani and B. von Stengel (2006). "Hard-to-Solve Bimatrix Games".  Econometrica 74 (2): 397–429.  doi:10.1111/j.1468-0262.2006.00667.x.
  5. P.W. Goldberg, C.H. Papadimitriou and R. Savani (2011). "The Complexity of the Homotopy Method, Equilibrium Selection, and Lemke–Howson Solutions". Proc. 52nd FOCS. pp.  67–76.  doi:10.1109/FOCS.2011.26.