کنترل تصادفی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به ناوبری پرش به جستجو

کنترل تصادفی یا کنترل بهینه‌ی یک زیرشاخه از تئوری کنترل است که به وجود عدم قطعیت در مشاهدات یا در نویزی که دینامیک سیستم را تحت تأثیر قرار می‌دهد می‌پردازد. طراح سیستم فرض می‌نماید که در شکل حاصل از مدلی که از احتمال بیزین آمده است نویز تصادفی با توزیع احتمال مشخص دینامیک و مشاهدات متغیرهای حالت را تحت تأثیر قرار می‌دهد. کنترل تصادفی در نظر دارد تا مسیر زمانی متغیرهای کنترلی را طوری تعیین نماید که هدف کنترلی حتی با وجود نویز با کمینهٔ هزینه مقدور شود.[۱] زمینهٔ این علم می‌تواند هم به فضای گسسته زمان و هم پیوسته زمان ارجاع داده شود.

معادلات قطعیت[ویرایش]

یک فرمول بندی به شدت مطالعه شده در حوزهٔ کنترل تصادفی کنترل گوسی‌های درجه‌دو خطی است. تابع هدف امید ریاضی معادلهٔ درجه‌دو است و اغتشاش به صورت خالص جمع پذیر است. یک نتیجهٔ اولیه برای سیستم‌های متمرکز زمان گسسته با فقط عدم قطعیت جمع‌پذیر مشخصهٔ معادلات قطعیت است[۲]:این موضوع که کنترل بهینه جوابی در این حالت معادل عدم حضور اغتشاش است. این ویژگی به تمام سیستم‌های متمرکز با معادلات خطی یا معادلات درجه‌دو یا مدل‌هایی که نویز فقط به صورت جمعی مدل می‌شود٬قابل اعمال است. فرض درجهٔ دو بودن به قوانین کنترل بهینه می‌انجامد٬که ویژگی معادلات قطعیت را که تابعی خطی از مشاهدات کنترل است فرض می‌گیرد.

هر گونه انحراف از فرضیات بالا (یک معادلهٔ حالت غیر خطی یک تابع هدف از درجه بیشتراز دو٬نویز ضرب شونده در پارامترهای مدل یا عدم کنترل متمرکز) سبب می‌شود که ویژگی معادلات قطعیت حفظ نگردد. برای مثال در زمینهٔ عدم کنترل متمرکز مثال نقض ویتسنهاسن نشان دهندهٔ ناکارآمدی این روش است.

زمان گسسته[ویرایش]

در مبحث زمان گسسته٬تصمیم گیرنده متغیرهای حالت را٬احتما با نویز مشاهده٬در هر بازه‌زمانی مشاهده می‌نماید. هدف می‌تواند بهینه‌سازی مجموع مقادیر مورد انتظار برای تابع هدف غیرخطی (احتمالاً از درجهٔ ۲)برای تمام بازه‌های زمانی باشد یا این که مقدار تابع هدف را برای بازهٔ زمانی نهائی تنها بهینه نمائیم. در هر زمانی که یک مشاهدهٔ جدید ایجاد می‌شود و متغیرهای کنترلی به صورت بهینه تنظیم می‌شوند پیدا کردن جواب بهینه برای زمان حال شاید دربرگیرندهٔ معادلات ماتریس ریکاتی به سوی عقب در زمان از آخرین بازه تا زمانی فعلی باشد.

در حالت زمان گسسته با عدم قطعیت دربارهٔ مقادیر پارامترهای ماتریس انتقال حالت (با این فرض که حالت‌های فعلی دینامیک تغییرات حالات بعدی را تعیین می‌نمایند) و ماتریس پاسخ کنترل معادلات حالت اما با معادلات حالت خطی و تابع هدف درجهٔ دوم معادلات ریکاتی می‌توانند هنوز با برگشت به عقب حل پذیرند اگر چه معادلات قطعیت برقرار نباشد. حالت زمان گسسته معادلات غیر درجهٔ دو اما با تنها اغتشاش جمع پذیر نیز می‌تواند جواب داشته باشد اگر چه محاسبات دشوارتر خواهد بود.[۱]

مثال[ویرایش]

یک حالت معمول زمام گسسته کنترل معادلات درجهٔ دوم خطی تصادفی است و هدف کنترلی این است که تابع زیر کمینه شود[۲]

در معادله بالا E1 نشان دهندهٔ امید شرطی بر روی y0 است و بالانویس T نیز نشان دهندهٔ ترانهادهٔ ماتریس است. همچنین S نشان دهندهٔ بازهٔ تغییرات زمانی است٬که بر مبنای معادلات زیر بدست آمده است.

در بالا y یک بردار به طول n است و u یک بردار به طول k از متغیرهای کنترل است.At نیز ماتریس انتقال حالت است و Bt نیز تحقق زمانی ماتریس n در k ماتریس ضرایب کنترل است. همچنین (Q (n × n و (R (k × k ماتریس هزینهٔ مثبت معین هستند. فرض می‌گیریم که دو ماتریس A,B مستقل و همچنین تا متغیر با زمان هستند بنابراین مقدار قابل انتظار لازم نیست که مشروط به زمان باشد.

فرض عقبگرد در زمان می‌تواند استفاده شود تا حل کنترل بهینه در هر زمان محاسبه شود.

با فرض مثبت معین بودن هزینه ماتریس X به صورت عقبگرد در زمان از حالت X_{S}=Q شروع می‌شود و طبق معادلهٔ زیر

که به معادلهٔ دینامیکی ریکاتی گسسته در زمان معروف است تغییر می‌یابد. تنها اطلاعاتی که نیاز است تا پارامترهای ماتریس A,B محاسبه شود مقدار مورد انتظار و واریانس هر کدام از عناصر هر ماتریس و کوواریانس در میان عناطر ماتریس مشترک و میان عناطر بین ماتریس است.

حل کنترل بهینه ساده است اگر شرط میانگین صفر و iid برقرار باشد. نویز جمع شوند نیز در معادلات حالت خود را نشان می‌دهد و تا هنگامی که آن‌ها شباهت صفر نسبت به پارامترهای ماتریس A,B هستند. اما اگر آن‌ها شباهت داشته باشند مسئله بهینه یک بردار ثابت جمع پذیر اضافه خواهد داشت. اگر یک بردار ثابت جمع پذیر در یک معادلهٔ حالت نمود پیدا نماید آنگاه دوباره حل کنترل بهینه برای هر بازهٔ شامل بردار ثابت جمع پذیر اضافی می‌گردد.

مشخصات حالت ماندگار X که به زمان بی‌نهایت مربوط می‌گردد زمانی که S به سمت بینهایت برود را می‌توان در تکرار معادلهٔ دینامیکی X تا زمانی که سیستم پایدار شود مشاهده نمود. بعد از آن X با پاک کردن زیرنویس زمانی از معادلات دینامیکی حاصل می‌گردد.

زمان پیوسته[ویرایش]

اگر مدل از حالت زمان پیوسته تبعیت نماید٬کنترل حالت‌های سیستم را در هر لحظه دارد و در اینجا هدف این است که برای مثال انتگرال تابع مقعری از متغیرهای حالت را از زمان صفر تا زمان نهائی T یا یک تابع مقعر از متغیرهای حالت را بیشینه نماییم. همانگونه که زمان می‌گذرد یک مشاهدهٔ جدید به صورت ادامه دار ایجاد می‌شود و متغیر کنترلی به شکل بهینه تنظیم می‌گردند.

در امور مالی[ویرایش]

در حالت زمان پیوسته در مبحث امورمالی، متغیرهای حالت در معادلات دیفرانسیل تصادفی معولا ثروت یا ارزش شبکه است و کنترل‌ها سهم‌های هستند که در هر زمان ارزش گذاری می‌گردند. با فرض داشتن تخصیص سرمایه‌ای که در هر زمان انتخاب می‌گردد٬اندازهٔ تغییرات در سرمایه معولا بازگرد تصادفی است که باید سرمایه‌گذاری شود و نرخ سودی که به شکل بدون ریسکی سرمایه‌گذاری شود. فیلد کنترل تصادفی از سال ۱۹۷۰ به شکل ویژه‌ای خصوصاً در امور مالی توسعه یافته‌است. روبرت مرتون از تئوری کنترل تصادفی برای مطالعهٔ کارهای بهینه برای سرمایه‌گذاری امن و ریسکی پرداخته است.[۶] کارهای وی طبیعت علوم اقتصادی را تغییر داده است. یک مرجع ریاضی تأثیرگذار نوشته شده توسط فلمینگ و ریشل[۷]، و توسط فلمینگ و سونار[۸] به این موضوع پرداخته است. این تکنیک‌ها توسط اشتاین در بحران مالی سال ۲۰۰۷. ۲۰۰۸ مطرح شد[۹]

بیشینه سازی لگارتیم ارزش شبکه مورد انتظار در زمان نهائی T موضوع مورد مطالعا در فرایندهای تصادفی در عناصر ثروت بوده‌است. در زمان پیوسته معادلات اتو زمینهٔ اصلی برای تحلیل را فراهم می‌کند. در حالتی که بیشینه سازی انتگرالی از توابع مقعر سودمندی در بازهٔ زمانی بین ۰ تا T است٬برنامه‌ریزی پویا به کار می‌آید و معادلات قطعیتی که در مقالات قدیمی استفاده می‌شد دیگر استفاده نمی‌شود و این به آن خاطر است که ضرایب کنترلی متغیرهای کنترل که همان بازگشت از سهم سرمایه‌گذاری است، تصادفی می‌باشد.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. Mitchell, Douglas W. (1990). "Tractable Risk Sensitive Control Based on Approximate Expected Utility". Economic Modelling. 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y.
  2. Turnovsky, Stephen (1974). "The stability properties of optimal economic policies". American Economic Review. 64 (1): 136–148. JSTOR 1814888.