معادله بلمن

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

معادله بلمنکه به نام یابنده آن ریچارد بلمن نام گذاری شد، یک شرط ضروری در روشهای ریاضی بهینه سازی‌است که با نام برنامه نویسی پویا نیز شناخته می‌شود. تقریبا هر مسئله را که بتوان با استفاده از نظریه کنترل بهینه حل کرد نیز می‌توان با تحلیل مناسب معادله بلمن حل کرد.معادله بلمن در ابتدا در مهندسی نظریه کنترل و دیگر مباحث در ریاضیات کاربردی اعمال و متعاقبا به یک ابزار قدرتمند در نظریه اقتصاد مبدل شد.

مثال[ویرایش]

در فراگیری پاداش/جزا، یک معادله بلمن به یک بازگشت برای مقادیر مورد انتظار اشاره می‌کند.برای مثال، مقدار مورد انتظار برای بودن در یک وضعیت خاص s و دنبال کردن تعدادی روش ثابت \pi معادله بلمنی به صورت زیر دارد:

 V^\pi(s)= R(s) + \gamma \sum_{s'} P(s'|s,\pi(s)) V^\pi(s').\

این معادله مقدار مورد انتظار برای انجام کاری که توسط چند روش تعیین شده بود را توصیف می‌کند.

معادله مربوط به روش بهینه سازی به عنوان معادله بهینگی بلمن بیان می‌شود:

 V^*(s)= R(s) + \max_a \gamma \sum_{s'} P(s'|s,a) V^*(s').\

این معادله پاداش برای انجام کاری که بالاترین انتظار را برآورده می‌کند، توصیف می‌کند.

روش‌های حل[ویرایش]

  • روش ضرایب نامعین، یا همان روش 'حدس و بررسی'، می‌تواند در حل بعضی معادلات بلمن مستقل کران-بینهایت استفاده شود.
  • معادله بلمن را می‌توان به کمک استقرای وارونه، در بعضی موارد به صورت تحلیلی و یا به صورت عددی با کامپیوتر حل کرد.استقرای وارونه عددی قابل استفاده در بسیاری از مسائل است، ولی هنگامی که تعداد متغیرهای حالت زیاد شود با توجه به مشکل بعد پذیری حل مسئله غیر ممکن می‌شود.

با محاسبه شرایط مرتبه اول که به معادله بلمن مرتبط است، و سپس استفاده از قضیه پوش برای از بین بردن مشتقات تابع مقدار، به دست آوردن قاعده معادله تفاضلی یا معادله دیفرانسیل که 'معادله اویلر' نام دارد، ممکن می‌شود. روش‌های استاندارد برای حل معادلات تفاضلی یا دیفرانسیل می‌توانند برای محاسبه تغییرات متغیرهای حالت و متغیرهای کنترلی مسئله بهینه سازی استفاده شوند.

کاربرد در اقتصاد[ویرایش]

اولین کاربرد اقتصادی معادله بلمن، مقاله سال ۱۹۷۳ اصلی مرتون در مدل قیمت گذاری دارایی حیاتی میان گذرا است.[۱].جواب مدل نظری مرتون، که در آن سرمایه گذاران از میان درآمد امروز و درآمد آینده یا عواید دارایی انتخاب می‌کنند، یک صورت از معادله بلمن است. به این دلیل که کاربردهای اقتصادی برنامه نویسی پویا معمولا به یک معادله بلمن می‌رسد که یک معادله تفاضلی است، اقتصاد دانان از برنامه نویسی پویا به عنوان یک «روش بازگشتی» یاد می‌کنند.

استوکی، لوکاس و پریسکات برنامه نویسی پویای تصادفی و غیر تصادفی را با جزییات دقیق، با زدن مثال‌های فراوان از چگونگی استفاده از برنامه نویسی پویا در نظریه اقتصاد، توصیف می‌کنند.[۲] این کتاب به این موضوع می‌انجامد که برنامه نویسی پویا برای حل دامنهٔ وسیعی از مسائل نظری در اقتصاد به کار گرفته شود که این مسائل شامل رشد اقتصادی بهینه، استخراج منابع، مسائل عامل اصلی، سرمایه گذاری عمومی، تجارتسرمایه گذاری، قیمت گذاری دارایی، تدارک ضریب تولید، وسازمان دهی صنعتی می‌شوند.

استفاده از برنامه نویسی پویا برای حل مسائل ملموس بوسیله مشکلات اطلاعاتی، مثل انتخاب نرخ نزول غیر قابل مشاهده، پیچیده می‌شود.همچنین مسائل محاسباتی وجود دارند، یکی مسائل اصلی آن مشکل بعد پذیری است که از تعداد زیادی از پتانسیل‌های متغیرهای حالت ناشی شده‌است که قبل از آنکه استراتژی بهینه انتخاب شود، باید مورد توجه قرار گیرد.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  • مشارکت‌کنندگان ویکی‌پدیا، «Bellman Equation»، ویکی‌پدیای انگلیسی، دانشنامهٔ آزاد (بازیابی در ۹ مه ۲۰۰۹).
  1. [[Robert C. Merton, ۱۹۷۳, «An Intertemporal Capital Asset Pricing Model,» Econometrica ۴۱: 867-887.
  2. *Nancy Stokey, and روبرت امرسون لوکاس, with ادوارد پرسکات, ۱۹۸۹. Recursive Methods in Economic Dynamics. Harvard Univ. Press.