مدل مبتنی بر انرژی

مدل مبتنی بر انرژی (به انگلیسی: Energy based model) شکلی از مدل مولد (GM) است که مستقیماً از فیزیک آماری وارد مباحث یادگیری شده‌است. مدل مولد با تجزیه و تحلیل مجموعهٔ دادههای نمونه، نحوهٔ توزیع داده‌ها را فرا می‌گیرد. پس از آموزش، مدل مولد می‌تواند مجموعه داده‌های دیگری را تولید کند که با توزیع داده‌ها نیز مطابقت داشته باشد.^[۱] مدل‌های مبتنی بر انرژی یک چارچوب یکپارچه ارائه می‌کند که برای بسیاری از رویکردهای احتمالی و غیر احتمالی برای چنین نوع یادگیری، به ویژه برای آموزش مدل‌های گرافیکی و سایر مدل‌های ساختار یافته مؤثر هستند.^[۲]

یک مدل مبتنی بر انرژی ویژگی‌های یک مجموعهٔ داده‌ را می‌آموزد و یک مجموعهٔ دادهٔ مشابه اما بزرگتر تولید می‌کند. این‌گونه مدل‌ها، متغیرهای پنهان یک مجموعهٔ داده را شناسایی کرده و مجموعه داده‌های جدیدی با توزیع مشابه تولید می‌کنند.^[۲]

کاربردهای این مدل شامل پردازش زبان طبیعی، روباتیک و بینایی رایانه‌ای می‌باشد.^[۲]

تاریخچه[ویرایش]

تحقیقات اولیه بر روی مدل‌های مبتنی بر انرژی، مدل‌هایی را پیشنهاد داد که انرژی را به عنوان ترکیبی از متغیرهای پنهان و قابل مشاهده نشان می‌داد. مدل‌های مبتنی بر انرژی در سال ۲۰۰۳ مورد توجه واقع شدند.^[۳]

رویکرد[ویرایش]

مدل‌های مبتنی بر انرژی با اختصاص دادن یک اسکالر احتمالی نرمال‌نشده (انرژی) به هر پیکربندی ترکیبی از متغیرهای مشاهده‌شده، وابستگی‌ها را پنهان پیدا می‌کنند. این عمل شامل یافتن (مقادیر) متغیرهای پنهانی می‌باشد که انرژی را با توجه به مجموعه ای از (مقادیر) متغیرهای مشاهده شده به حداقل می‌رساند. به‌طور مشابه، مدل، تابعی را می‌آموزد که انرژی‌های کم را به مقادیر متغیرهای پنهان اصلاح و انرژی‌های بالاتر را به مقادیر نادرست، مرتبط می‌کند.^[۲]

مدل‌های مبتنی بر انرژی قدیمی به روش‌های بهینه‌سازی گرادیان-نزولی تصادفی (SGD) تکیه می‌کنند که معمولاً به سختی می‌توان آن‌ها را بر مجموعه داده‌هایی با ابعاد بالا اعمال کرد. در سال ۲۰۱۹، OpenAI نسخه‌ای را منتشر کرد که از دینامیک لانگوین (LD) استفاده می‌کرد. دینامیک لانگوین یک الگوریتم بهینه‌سازی تکراری است که نویز را به عنوان بخشی از یادگیری یک تابع هدف به تخمین‌گر می‌دهد که می‌توان از آن برای سناریوهای یادگیری بیزی با تولید نمونه‌هایی از توزیع پسین استفاده کرد.^[۲]

مدل‌های مبتنی بر انرژی نیازی به نرمالکردن انرژی‌ها به عنوان احتمال ندارند. به عبارت دیگر، انرژی‌ها نیازی ندارند که مجموعشان ۱ شود. از آنجایی که نیازی به تخمین ثابت نرمال سازی مانند مدل‌های احتمالی نداریم، حالتهای خاصی از استنباط و یادگیری با مدل‌های مبتنی بر انرژی قابل اجرا و انعطاف پذیرتر هستند.^[۲]

نمونه‌ها به‌طور ضمنی از طریق رویکرد مونت کارلو زنجیره مارکوف تولید می‌شوند.^[۴] یک بافر پخش مجدد تصاویر گذشته، برای مقداردهی اولیه ماژول بهینه‌سازی با استفاده از با روش دینامیک لانگوین استفاده می‌شود.^[۲]

مشخصات[ویرایش]

از مزایای این مدل موارد زیر را می‌شود نام برد:^[۲]

سادگی و پایداری – مدل مبتنی بر انرژی، تنها مدلی است که نیاز به طراحی و آموزش دارد. شبکه‌های جدا از هم برای اطمینان از تعادل نیازی به آموزش مجزا ندارند.
زمان محاسبات تطبیقی – یک مدل مبتنی بر انرژی می‌تواند نمونه‌های دقیق، متنوع یا (سریع‌تر) درشت و نمونه‌های کم‌تنوع تولید کند. با توجه به زمان بی‌نهایت، این روش می‌تواند نمونه‌های واقعی را تولید کند.^[۱]
انعطاف‌پذیری – در رمزگذارهای خودکار متغیر (VAE) و مدل‌های مبتنی بر جریان، مولد یک نقشه‌ای را از یک فضای پیوسته به یک فضای ناپیوسته (احتمالاً) حاوی حالت‌های مختلف داده می‌آموزد. مدل‌های مبتنی بر انرژی می‌توانند یاد بگیرند که انرژی‌های کم را به مناطق مجزا اختصاص دهند (حالت‌های چندگانه).
تولید تطبیقی – مولدهای مدل مبتنی به انرژی به‌طور ضمنی با توزیع احتمال تعریف می‌شوند و به‌طور خودکار با تغییر توزیع (بدون هیچ آموزشی) سازگار می‌شوند، این کار به مدلهای مبتنی بر انرژی اجازه می‌دهد تا حوزه‌هایی را که آموزش مولد در آن‌ها غیرعملی است شناسایی کنند، حالت فروپاشی را به حداقل برسانند و از حالت‌های جعلی خارج از نمونه‌های توزیع جلوگیری کنند.^[۴]
ترکیب‌پذیری- هرکدام از مدل‌های مجزا، توزیع‌های احتمال غیرنرمالی هستند که به مدل‌ها اجازه می‌دهند از طریق محصول متخصصان یا سایر تکنیک‌های سلسله مراتبی ترکیب شوند.

نتایج تجربی[ویرایش]

در مجموعهٔ داده‌های تصویری مانند CIFAR-10 و ImageNet 32x32، یک مدل مبتنی بر انرژی تصاویر با کیفیت را با سرعت نسبتاً زیادی ایجاد می‌کند. این مدل از ترکیب ویژگی‌های یادگرفته شده از یک تصویر مشخص، برای تولید انواع دیگر تصاویر پشتیبانی می‌کند. این مدل قادر است عملکردی بهتر از مدل‌های مبتنی بر جریان و اتورگرسیو با تعمیم مجموعهٔ داده‌های خارج از توزیع داشته باشد. مدل مبتنی بر انرژی نسبتاً در برابر آشفتگی‌های متخاصم، مقاوم بوده و نسبت به مدل‌هایی که به صراحت در برابر آموزش مبتنی، عملکرد بهتری دارد.^[۲]

جایگزین[ویرایش]

مدل‌های مبتنی بر انرژی با تکنیک‌هایی مانند رمزگذارهای خودکار متغیر (VAE) یا شبکه‌های عصبی متخاصم مولد (GAN) رقابت می‌کنند.^[۲]

پانویس[ویرایش]

↑ ^۱٫۰ ^۱٫۱ "Implicit Generation and Generalization Methods for Energy-Based Models". OpenAI (به انگلیسی). 2019-03-21. Retrieved 2019-12-27.
↑ ^۲٫۰۰ ^۲٫۰۱ ^۲٫۰۲ ^۲٫۰۳ ^۲٫۰۴ ^۲٫۰۵ ^۲٫۰۶ ^۲٫۰۷ ^۲٫۰۸ ^۲٫۰۹ Rodriguez, Jesus (2019-04-01). "Generating Training Datasets Using Energy Based Models that Actually Scale". Medium (به انگلیسی). Archived from the original on 1 April 2019. Retrieved 2019-12-27.
↑ LeCun, Yann (September 2003). "CBLL, Research Projects, Computational and Biological Learning Lab, Courant Institute, NYU". cs.nyu.edu. Retrieved 2019-12-27.
↑ ^۴٫۰ ^۴٫۱ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].

منابع[ویرایش]

"CIAR NCAP Summer School". www.cs.toronto.edu. Retrieved 2019-12-27.
Dayan, Peter; Hinton, Geoffrey; Neal, Radford; Zemel, Richard S. (1999), "Helmholtz Machine", Unsupervised Learning, The MIT Press, doi:10.7551/mitpress/7011.003.0017, ISBN 978-0-262-28803-3
Hinton, Geoffrey E. (August 2002). "Training Products of Experts by Minimizing Contrastive Divergence". Neural Computation. 14 (8): 1771–1800. doi:10.1162/089976602760128018. ISSN 0899-7667. PMID 12180402.
Salakhutdinov, Ruslan; Hinton, Geoffrey (2009-04-15). "Deep Boltzmann Machines". Artificial Intelligence and Statistics (به انگلیسی): 448–455.

[:1-1] ۱٫۰ ^۱٫۱ "Implicit Generation and Generalization Methods for Energy-Based Models". OpenAI (به انگلیسی). 2019-03-21. Retrieved 2019-12-27.

[:0-2] ۲٫۰۰ ^۲٫۰۱ ^۲٫۰۲ ^۲٫۰۳ ^۲٫۰۴ ^۲٫۰۵ ^۲٫۰۶ ^۲٫۰۷ ^۲٫۰۸ ^۲٫۰۹ Rodriguez, Jesus (2019-04-01). "Generating Training Datasets Using Energy Based Models that Actually Scale". Medium (به انگلیسی). Archived from the original on 1 April 2019. Retrieved 2019-12-27.

[3] LeCun, Yann (September 2003). "CBLL, Research Projects, Computational and Biological Learning Lab, Courant Institute, NYU". cs.nyu.edu. Retrieved 2019-12-27.

[:2-4] ۴٫۰ ^۴٫۱ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].

[۱]

[۲]

[۳]

[۴]