یادگیری تفاوت زمانی: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده

درخط

نسخهٔ ‏۱۰ دسامبر ۲۰۱۱، ساعت ۱۸:۴۰

یادگیری تفاوت زمانی یک روش پیش بینی است. این روش به صورت عمده برای حل مسائل یادگیری تقویتی مورد استفاده بود است. "روش تفاوت زمانی ترکیبی از ایده های مونت کارلو و برنامه ریزی پویا است. ^[۱] این روش مشابه روش مونت کارلو است چرا که یادگیری در آن با استفاده از نمونه برداری از محیط با توجه به یک یا چند سیاست خاص انجام می شود. روش تفاوت زمانی به این دلیل به تکنیک های برنامه ریزی پویا شباهت دارد که این روش تخمین کنونی را بر اساس تخمین های یاد گیری شده (فرآیندی که به خودراه اندازه معروف است) به دست می آورد. الگوریتم یادگیری تفاوت زمانی به مدل یاگیری تفاوت زمانی در حیوانات نیز مرتبط است.

به عنوان یک روش پیش بینی، یادگیری تفاوت زمانی این واقعیت را در نظر می گیرد که پیش بینی های آینده نیز معمولا از جهاتی دارای همبستگی هستند. در روش های یادگیری مبتنی بر پیش بینی نظارتی، مامور تنها از مقادیر دقیقا مشاهده شده یاد می گیرد: یک پیش بینی انجام می شود، و زمانی که مشاهده ممکن باشد، پیش بینی به تطابق بهتری با مشاهده خواهد رسید. مطابق منبع یاد شده، ^[۲] ایده اساسی یادگیری تفاوت زمانی این است که پیش بینی ها با پیش بینی هایی دقیق تر دیگری از آینده تنظیم کنیم. همان گونه که از مثال زیر بر می آید (برگرفته از منبع ^[۲])، این رویه نوعی از فرآیند خود راه اندازه است:

فرض کنید که می خواهید وضعیت هوای روز شنبه را پیش بینی کنید و مدلی دارید که هوای روز شنبه را با استفاده از وضعیت هوای داده شده برای تمام روزهای هفته، پیش بینی می کند. در شرایط عادی، باید تا شنبه صبر کنید تا بتوانید تمامی مدل های خود را تنظیم نمایید. با این وجود، زمانی که مثلا جمعه است، می توانید ایده بسیار خوبی از این داشته باشید که هوای روز شنبه احتمالا به چه صورتی خواهد بود و به همین صورت می توانید مثلا مدل روز دوشنبه خود را قبل از این که شنبه برسد، تغییر دهید.

به بیان ریاضی، هم در رویکرد استاندارد و هم در رویکرد تفاوت زمانی، تلاش ما بر این است که تابع هزینه را که مرتبط با خطاهای ما در پیش بینی یک یا چند متغیر تصادفی [E[z است، بهینه سازی نماییم. حال آن که در رویکرد استاندارد به گونه ای فرض می نماییم که E[z]=z (که z همان متغیر مشاهده شده است) و در رویکرد TD از یک مدل استفاده می نماییم. برای حالت خاص در یادگیری تقویتی، که کاربرد عمده روش های تفاوت زمانی است، z همان بازگشت کل و [E[z با استفاده از معادله بلمن بازگشت داده شده است.

الگوریتم تفاوت زمانی در علوم عصبی

الگوریتم تفاوت زمانی در زمینه علوم عصبی نیز مورد توجه خاصی بوده است. پژوهشگران دریافته اند که نرخ ارسال الکتریکی نورون های پخش کننده دوپامین در ناحيه تگمنتوم شكمي و جسم سیاه را می توان به تابع خطای این الگوریتم نسبت داد ^[۳]. تابع خطا، میزان تفاوت میان پاسخ (reward) تخمین زده شده در هر حالت (state) داده شده یا زمان خاصی و پاسخ دقیقی که به دست آمده را نشان می دهد. هر چه قدر این تابع بزرگ تر باشد، تفاوت میان پاسخ به دست آمده و مورد نظر بیشتر بوده است. زمانی که این تابع با محرکی که پاسخ آینده را به صورت دقیق منعکس می کند، خطا می تواند برای نسبت دادن آن محرک به پاسخ آینده استفاده شود.

به نظر می رسد که سلول های دوپامین نیز به صورت مشابهی عمل می کنند. در یکی از آزمایش های انجام شده، اندازه گیری هایی از سلول های دوپامین در یک میمون در حال آموزش انجام شد تا بتوان یک محرک را با پاسخ (جایزه) مربوط به آن که آب میوه بود، مرتبط کنند ^[۴]. در ابتدا نرخ ارسال الکتریکی سلول های دوپامین زمانی که میمون با آب میوه مواجه می شد، افزایش یافت که نشان می دهد که تفاوتی در پاسخ های مورد نظر و واقعی وجود دارد. در طول زمان، این ارسال به سمت اولین محرک مطمئن برای پاسخ بازگشت. به محض این که میمون به صورت کامل آموزش دید، هیچ افزایشی در در نرخ ارسال در هنگام مواجه با یک پاسخ مورد انتظار نبود. در ادامه، نرخ ارسال الکتریکی برای سلول های دوپامین، زمانی که پاسخ مورد نظر دریافت نشد، به زیر سطح فعال شدن کاهش یافت. این یافته ها تا حد زیادی با تابع خطا در یادگیری تفاوت زمانی که در زمینه یادگیری تقویتی مطرح است، مرتبط شده است.

رابطه میان این مدل و کارکردهای بالقوه نورولوژیکی زمینه پژوهشی را به وجود آورده که هدف در استفاده از TD برای توضیح بسیاری از جنبه های پژوهش های رفتاری را دارد ^[۵]. این رابطه همچنین برای مطالعه شرایطی مانند اسکیزوفرنی و تبعات دستکاری های دارویی سطح دوپامین در یادگیری، مورد استفاده قرار گرفته است ^[۶].

فرمول بندی ریاضی

فرض کنید $r_{t}$ میزان تقویت در نقطه زمانی $''t''$ . همچنین فرض کنید ${\bar {V}}_{t}$ پیش بینی صحیحی باشد که معادل حاصل جمع کاهش یافته تمامی مقادیر تقویت در آینده است. این کاهش توسط توان هایی از عامل $\gamma$ به گونه ای انجام می شود که در نقاط زمانی دورتر، مقدار تقویت اهمیت کمتری دارد:

${\bar {V}}_{t}=\sum _{i=0}^{\infty }\gamma ^{i}r_{t+i}$

که در آن $0\leq \gamma <1$ .

این فرمول می تواند توسط تغییر نقطه شروع اندیس i به مقدار صفر گسترش یابد:

{\bar {V}}_{t}=r_{t}+\sum _{i=1}^{\infty }\gamma ^{i}r_{t+i}

{\bar {V}}_{t}=r_{t}+\sum _{i=0}^{\infty }\gamma ^{i+1}r_{t+i+1}

{\bar {V}}_{t}=r_{t}+\gamma \sum _{i=0}^{\infty }\gamma ^{i}r_{t+1+i}

{\bar {V}}_{t}=r_{t}+\gamma {\bar {V}}_{t+1}

بنابراین، مقدار تقویت تفاوت میان پیش بینی ایده آل و پیش بینی فعلی است:

r_{t}={\bar {V}}_{t}-\gamma {\bar {V}}_{t+1}

الگوریتم TD-Lambda یک الگوریتم یادگیری است که توسط Richard S. Sutton بر مبانی کارهای قبلی انجام شده توسط Arthur Samuel در یادگیری تفاوت زمانی ایجاد شده است^[۱]. کاربرد معروفی از این الگوریتم توسط Gerald Tesauro برای ایجاد برنامه TD-Gammon بوده است. در واقع، این برنامه یاد می گیرد که تخته نرد را در سطح بازیکنان برجسته انسانی بازی کند^[۷]. پارامتر $\lambda$ همان پارامتر فروپاشی نشانه ها است که در آن $0\leq \lambda \leq 1$ برقرار است. هر چه قدر این پارامتر بیشتر تنظیم شود نشانه ها بیشتر باقی می مانند که این معادل آن است که هر چه مقدار $\lambda$ بیشتر باشد، نسبت های تاثیری بیشتری از پاسخ های قبلی بر وضعیت ها و اعمال آینده دور تاثیر می گذارند. اگر مقداردهی $\lambda =1$ انجام شود یک الگوریتم یادگیری موازی با الگوریتم های یادگیری تقویتی مونت کارلو ایجاد خواهد شد.

جستارهای وابسته

Notes

↑ ^۱٫۰ ^۱٫۱ Richard Sutton and Andrew Barto (1998). Reinforcement Learning. MIT Press. ISBN 0585024456.
↑ ^۲٫۰ ^۲٫۱ Richard Sutton (1988). "Learning to predict by the methods of temporal differences". Machine Learning. 3 (1): 9–44. doi:10.1007/BF00115009. (A revised version is available on Richard Sutton's publication page)
↑ Schultz, W, Dayan, P & Montague, PR. (1997). "A neural substrate of prediction and reward". Science. 275 (5306): 1593–1599. doi:10.1126/science.275.5306.1593. PMID 9054347.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)
↑ Schultz, W. (1998). "Predictive reward signal of dopamine neurons". J Neurophysiology. 80 (1): 1–27.
↑ Dayan, P. (2001). "Motivated reinforcement learning" (PDF). Advances in Neural Information Processing Systems. MIT Press. 14: 11–18.
↑ Smith, A., Li, M., Becker, S. and Kapur, S. (2006). "Dopamine, prediction error, and associative learning: a model-based account". Network: Computation in Neural Systems. 17 (1): 61–84. doi:10.1080/09548980500361624. PMID 16613795.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)
↑ Tesauro, Gerald (March 1995). "Temporal Difference Learning and TD-Gammon". Communications of the ACM. 38 (3). Retrieved 2010-02-08. {{cite journal}}: Cite has empty unknown parameter: |coauthors= (help)

منابع برای مطالعه بیشتر

مدل های به دست آمده از زمان برای تقویت پائولوفی

Sutton, R.S., Barto A.G. (1990). "Time Derivative Models of Pavlovian Reinforcement" (PDF). Learning and Computational Neuroscience: Foundations of Adaptive Networks: 497–537.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)

یادگیری تفاوت زمانی و TD-Gammon

Gerald Tesauro (March 1995). "Temporal Difference Learning and TD-Gammon". Communications of the ACM. 38 (3).

یادگیری تقویتی در بازی های صفحه ای

Imran Ghory. Reinforcement Learning in Board Games.

روش هایی برای شبکه های پیچیده

S. P. Meyn, 2007. Control Techniques for Complex Networks, Cambridge University Press, 2007. See final chapter, and appendix with abridged Meyn & Tweedie.

پیوند به بیرون

یادگیری تقویتی، نوشته شده توسط حامد عطیان فر [۱]
یادگیری تقویتی در وب سایت رویاک [۲]
صفحه اسکولارپدیا برای یادگیری تفاوت زمانی

Scholarpedia Temporal difference Learning

گروه پژوهشی شبکه های تفاوت زمانی در دانشگاه آلبرتا

TD-Networks Research Group

[RSutton-1998-1] ۱٫۰ ^۱٫۱ Richard Sutton and Andrew Barto (1998). Reinforcement Learning. MIT Press. ISBN 0585024456.

[RSutton-1988-2] ۲٫۰ ^۲٫۱ Richard Sutton (1988). "Learning to predict by the methods of temporal differences". Machine Learning. 3 (1): 9–44. doi:10.1007/BF00115009. (A revised version is available on Richard Sutton's publication page)

[WSchultz-1997-3] Schultz, W, Dayan, P & Montague, PR. (1997). "A neural substrate of prediction and reward". Science. 275 (5306): 1593–1599. doi:10.1126/science.275.5306.1593. PMID 9054347.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)

[WSchultz-1998-4] Schultz, W. (1998). "Predictive reward signal of dopamine neurons". J Neurophysiology. 80 (1): 1–27.

[PDayan-2001-5] Dayan, P. (2001). "Motivated reinforcement learning" (PDF). Advances in Neural Information Processing Systems. MIT Press. 14: 11–18.

[ASmith-2006-6] Smith, A., Li, M., Becker, S. and Kapur, S. (2006). "Dopamine, prediction error, and associative learning: a model-based account". Network: Computation in Neural Systems. 17 (1): 61–84. doi:10.1080/09548980500361624. PMID 16613795.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)

[CACM-7] Tesauro, Gerald (March 1995). "Temporal Difference Learning and TD-Gammon". Communications of the ACM. 38 (3). Retrieved 2010-02-08. {{cite journal}}: Cite has empty unknown parameter: |coauthors= (help)

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]