فرایادگیری (علوم کامپیوتر)

از ویکی‌پدیا، دانشنامهٔ آزاد

فرا یادگیری[۱][۲] زیرشاخه‌ای از یادگیری ماشین است که در آن الگوریتم‌های یادگیری خودکار بر فرادادهها برای انجام آزمایش‌های یادگیری ماشین اعمال می‌شوند. از سال ۲۰۱۷ به بعد این اصطلاح تفسیر استانداردی پیدا نکرده‌است، اما هدف اصلی فرایادگیری به صورت زیر بیان شده‌است: درک اینکه چگونه یادگیری خودکار می‌تواند در حل مشکلات یادگیری انعطاف‌پذیر شود تا منجر به بهبود عملکرد الگوریتم‌های یادگیری موجود یا یادگیری (استنتاج) خودِ الگوریتم یادگیری شود؛ بنابراین، یادگیری برای یادگیری اصطلاح جایگزینی برای فرایادگیری است.

انعطاف‌پذیری مهم است زیرا هر الگوریتم یادگیری بر مجموعه‌ای از فرضیات در مورد داده‌ها، یا به عبارتی سوگیری استقرایی[۳] داده‌ها، استوار است. این بدان معنی است که یادگیری فقط درصورتی به درستی انجام می‌شود که سوگیری با مسئله یادگیری مورد نظر مطابقت داشته باشد. یک الگوریتم یادگیری ممکن است در یک حوزه عملکرد بسیار خوبی داشته باشد، اما در حوزه بعدی چنین نباشد. این امر محدودیت‌های شدیدی را در استفاده از تکنیک‌های یادگیری ماشین یا داده کاوی تحمیل می‌کند، زیرا رابطه بین مسئله یادگیری (اغلب نوعی پایگاه داده) و مؤثر بودن الگوریتم‌های یادگیری متفاوت هنوز پیدا نشده‌است.

با استفاده از انواع مختلف فراداده، مانند خصوصیات مسئله یادگیری، خصوصیات الگوریتم (مانند معیارهای عملکرد)، یا الگوهایی که قبلاً از داده‌ها کشف شده‌است، می‌توان الگوریتم‌های یادگیری مختلف را آموخت، انتخاب کرد، تغییر داد، یا ترکیب کرد تا به‌طور مؤثر یک مسئله یادگیری داده شده را حل کرد. انتقادهای وارد شده بر رویکردهای مبتنی بر فرا یادگیری شباهت‌های زیادی به انتقادهای وارد شده بر رویکردهای مبتنی بر الگوریتم‌های فراابتکاری، به عنوان مسئله‌ای حدوداً مرتبط، دارند. یک تشبیه خوب برای فرا یادگیری، و همچنین منبع الهام بخش کارهای اولیه یورگن اشمیدوبر (1987)[۱] و کارهای یوشوا بنگیو و دیگران (۱۹۹۱)، بیان می‌کند که تکامل ژنتیکی فرایند یادگیری که در ژن‌ها رمزگذاری شده و در مغز هر فرد اجرا می‌شود را یادمی‌گیرد. در یک سیستم فرا یادگیر سلسله مراتبی پایان باز که از برنامه‌نویسی ژنتیکی استفاده می‌شود، روش‌های تکاملی بهتر می‌توانند توسط فرا تکامل آموخته شوند، که خود می‌تواند با فرا فرا تکامل و غیره بهبود یابد.

تعریف[ویرایش]

تعریف پیشنهادی[۴] برای یک سیستم فرا یادگیر سه الزام را با هم ترکیب می‌کند:

  • سیستم باید شامل یک زیر سیستم یادگیر باشد.
  • با بهره‌گیری از فرا دانش استخراج شده از منابع زیر تجربه کسب می‌شود:
    • از یک قسمت از یادگیری قبلی روی یک مجموعه داده واحد، یا
    • از دامنه‌های مختلف
  • سوگیری یادگیری باید به صورت پویا انتخاب شود.

سوگیری به فرضیاتی اشاره دارد که بر انتخاب فرضیه‌های توضیحی تأثیر می‌گذارند و نه مفهوم سوگیری که در معمای سوگیری-واریانس مطرح شده‌است. فرا یادگیری به دو جنبه سوگیری یادگیری مربوط می‌شود.

  • سوگیری تعریفی نمایشی از فضای فرضیه‌ها را مشخص می‌کند و بر اندازه فضای جستجو تأثیر می‌گذارد (به عنوان مثال، فرضیه‌ها را فقط با استفاده از توابع خطی نشان دهیم).
  • سوگیری فرایندی محدودیت‌هایی را بر ترتیب‌دهی فرضیات استقرایی ایجاد می‌کند (به عنوان مثال، فرضیه‌های کوچکتر را ترجیح دهیم).[۵]

رویکردهای مشترک[ویرایش]

سه رویکرد مشترک وجود دارد: ۱) استفاده از شبکه‌های (مداری) با حافظه داخلی یا خارجی (مبتنی بر مدل). ۲) یادگیری متریک‌های مؤثر فاصله (مبتنی بر متریک‌ها)؛ ۳) بهینه‌سازی صریح پارامترهای مدل برای یادگیری سریع (مبتنی بر بهینه‌سازی).[۶]

مبتنی بر مدل[ویرایش]

فرا یادگیری مبتنی بر مدل پارامترهای خود را با چند مرحله آموزش به سرعت به روز رسانی می‌کنند، که از طریق معماری داخلی آن قابل دستیابی است یا توسط یک مدل فرا آموزنده دیگر قابل کنترل است.[۶]

شبکه‌های عصبی تقویت شده با حافظه[ویرایش]

این مدل که به نام MANN مخفف Memory-Augmented Neural Networks شناخته می‌شود، اطلاعات جدید را سریع رمزگذاری می‌کند و بنابراین پس از تنها چند نمونه با وظایف جدید سازگار شود. در نتیجه برای فرا یادگیری مناسب است.[۷]

شبکه‌های متا[ویرایش]

فرا شبکه‌ها (MetaNet) دانش فرا سطح را برای همه کارها فرا می‌گیرند و سوگیری‌های استقراییشان را از طریق پارامترسازی سریع برای تعمیم سریع تغییر می‌دهند.[۸]

مبتنی بر متریک[ویرایش]

ایده اصلی در فرا یادگیری مبتنی بر متریک مشابه الگوریتم‌های نزدیکترین همسایگان است که وزن آن توسط یک تابع هسته تولید می‌شود. در این روش، هدف یادگیری یک متریک یا تابع فاصله بر روی اشیا است. مفهوم معیار خوب به مسئله وابسته است. این مفهوم باید روابط بین ورودی‌ها را در فضای کار نشان دهد و حل مسئله را تسهیل کند.[۶]

شبکه عصبی سیامی پیچشی[ویرایش]

شبکه عصبی سیامی از دو شبکه دوقلو تشکیل شده‌است که خروجی آنها به‌صورت مشترک آموزش داده می‌شود. در بالا یک تابع برای یادگیری رابطه بین زوج‌های نمونه داده ورودی وجود دارد. این دو شبکه یکسان هستند، یعنی مقادیر وزن و پارامترهای شبکه یکسانی دارند.[۹]

شبکه‌های انطباق[ویرایش]

شبکه‌های انطباق شبکه‌ای را یادمی‌گیرند که یک مجموعه کوچک پشتیبانی برچسب خورده و یک نمونه بدون برچسب را به برچسبش نگاشت می‌کنند و نیاز به تنظیم دوباره برای سازگاری با انواع جدید کلاس برطرف می‌کند.[۱۰]

شبکه ارتباط[ویرایش]

شبکه ارتباط (Relation Network (RN از آغاز به صورت انتها به انتها آموزش داده می‌شود. در طول فرا یادگیری، شبکه یادمی‌گیرد که یک معیار فاصله عمیق را یاد بگیرد تا بتواند تعداد کمی از تصاویر درون اپیزودها را مقایسه کند، که هر یک برای شبیه‌سازی ویژگی‌های مجموعه‌داده‌های محدود (few-shot) طراحی شده‌اند.[۱۱]

شبکه‌های نمونه اولیه[ویرایش]

شبکه‌های نمونه اولیه یک فضای متریک را یادمی‌گیرند که در آن طبقه‌بندی داده‌ها با محاسبه فواصل تا نمونه‌های اولیه هر کلاس قابل انجام است. در مقایسه با رویکردهای اخیر برای یادگیری با مجموعه‌داده‌های محدود (چند شات)، شبکه‌های نمونه اولیه سوگیری استقرایی ساده‌تری را نشان می‌دهند که در این رژیم داده‌های محدود مفید واقع می‌شود و منجر به رسیدن به نتایج رضایت بخشی می‌شود.[۱۲]

مبتنی بر بهینه‌سازی[ویرایش]

هدف الگوریتم‌های فرا یادگیری مبتنی بر بهینه‌سازی این است که الگوریتم بهینه‌سازی را به گونه‌ای تنظیم کنند که مدل در یادگیری با استفاده از چند مثال مهارت کسب کند.[۶]

فرایادگیرهای مبتنی بر LSTM[ویرایش]

فرایادگیرهای مبتنی بر LSTM به یادگیری صورت دقیق الگوریتم بهینه‌سازی استفاده شده در آموزش یک طبقه‌بند شبکه عصبی یادگیرنده دیگر در رژیم چند شات به می‌پردازند. پارامتری سازی این روش به شبکه فرایادگیر این امکان را می‌دهد که علاوه‌بر یادگرفتن به روزرسانی‌های مناسب پارامترها برای سناریوی خاصی که در آن تعداد مشخصی از به روزرسانی‌ها انجام می‌شود، یک مقدار اولیه عمومی را از شبکه یادگیرنده (طبقه‌بند) نیز بیاموزد که امکان همگرایی سریع آموزش را فراهم می‌کند.[۱۳]

گسستگی زمانی[ویرایش]

MAML، مخفف Model-Agnostic Meta-Learning، یک الگوریتم بهینه‌سازی نسبتاً کلی است که با هر مدلی که از طریق شیب نزولی یادمی‌گیرد سازگار است.[۱۴]

خزنده[ویرایش]

خزنده یک الگوریتم بهینه‌سازی فرا یادگیری بسیار ساده است که با فرض اینکه هر دو به فرا بهینه‌سازی از طریق گرادیان نزولی متکی هستند و هر دو مدل اگنوستیک هستند عمل می‌کند.[۱۵]

مثال‌ها[ویرایش]

برخی از رویکردهایی که به عنوان مواردی از فرا یادگیری مشاهده شده‌اند:

  • شبکه‌های عصبی بازگشتی (RNN) رایانه‌های جهانی هستند. در سال ۱۹۹۳، یورگن اشمیدوبر نشان داد که چگونه RNNهای «خود ارجاع» می‌توانند با استفاده از پس انتشار در اصل یاد بگیرند که الگوریتم تغییر وزن خود را اجرا کنند، که ممکن است کاملاً متفاوت از خود پس انتشار باشد.[۱۶] در سال ۲۰۰۱، سپ هوکرایتر و ای اس یانگر و پی آر کانول یک فرا یادگیرنده با ناظر موفق را مبتنی بر حافظه‌های طولانی کوتاه مدت در RNNها ساختند. این فرا یادگیر با استفاده از پس انتشار یک الگوریتم یادگیری را برای توابع درجه دوم آموخت که از پس انتشار بسیار سریعتر عمل می‌کند.[۱۷][۲] در سال ۲۰۱۷ محققان دیپ‌مایند (مارسین آندریچوویچ و سایرین) این روش را به بهینه‌سازی بسط دادند.[۱۸]
  • در دهه ۱۹۹۰، فرا یادگیری تقویتی یا Meta RL در گروه تحقیقاتی اشمیدوبر از طریق خط مشی‌هایی که خودشان را تغییر می‌دادند و توسط یک زبان برنامه‌نویسی جهانی که شامل دستورالعمل‌های خاصی برای تغییر سیاست خود بودند نوشته شده بودند، به دست آمد. یک دادگاه مادام العمر وجود دارد. هدف عامل RL به حداکثر رساندن مقدار پاداش است. این عامل یادمی‌گیرد که با بهبود مداوم الگوریتم یادگیری خود که بخشی از سیاست «خود ارجاع» است، دریافت پاداش را شتاب بخشد.[۱۹][۲۰]
  • یک نوع افراطی فرا یادگیری تقویتی توسط ماشین Gödel، یک ساختار نظری که می‌تواند هر بخشی از نرم‌افزار خود (شامل یک اثبات‌گر قضیه عمومی) را بازرسی و اصلاح کند، تجسم یافته‌است. این نوع فرا یادگیری می‌تواند به خود ارتقا بخشی بازگشتی به روشی که بهینه بودن آن قابل اثبات است برسد.[۲۱][۲]
  • فرا یادگیری بدون مدل (MAML) در سال ۲۰۱۷ توسط چلسی فین و همکاران معرفی شد. با فرض در اختیار داشتن دنباله ای از وظایف، پارامترهای یک مدل داده شده به گونه‌ای آموزش داده می‌شوند که با اعمال تعداد کمی تکرار نزولی شیب‌دار روی تعداد اندکی داده آموزشی از یک وظیفه جدید، تعمیم عملکردی خوبی از آن وظیفه را ایجاد کنند. MAML «مدل را به گونه‌ای آموزش می‌دهد که به سادگی قابلیت تنظیم مجدد را فراهم کند.» MAML با موفقیت روی بنچمارک‌های طبقه‌بندی تصویر به روش چند شات و همچنین برای یادگیری سیاست مبتنی شیب در یادگیری تقویتی استفاده شد.[۲۲]
  • کشف فرا دانش به وسیله استنتاج دانشی (یا قوانینی) که بیان‌کننده نحوه عملکرد هر روش یادگیری روی مسائل مختلف یادگیری است، امکان‌پذیر می‌باشد. در این روش، فراداده منطبق با مشخصات داده‌ها (از جمله مشخصات عمومی، آماری، نظری اطلاعاتی، ...) در مسئله یادگیری و ویژگی‌های الگوریتم یادگیری (از جمله نوع، تنظیمات پارامترها، معیارهای عملکرد، ...) شکل می‌گیرد. سپس یک الگوریتم یادگیری دیگر ارتباط بین ویژگی‌های داده با مشخصات الگوریتم را می‌آموزد. با فرض اینکه یک مسئله یادگیری جدید داده شده باشد، مشخصات داده‌ها اندازه‌گیری می‌شود و عملکرد الگوریتم‌های یادگیری مختلف روی این داده‌ها پیش‌بینی می‌شود؛ بنابراین، می‌توان الگوریتم‌هایی که برای مسئله جدید به بهترین وجه ممکن عمل می‌کنند را پیش‌بینی کرد.
  • تعمیم‌دهی پشته‌ای با ترکیب چندین الگوریتم یادگیری (متفاوت) کار می‌کند. در این روش، فراداده‌ها منطبق بر پیش‌بینی آن الگوریتم‌های متفاوت شکل می‌گیرند. یک الگوریتم یادگیری دیگر از این فراداده‌ها یادمی‌گیرد که چه ترکیبی از الگوریتم‌ها عموماً نتایج خوبی تولید می‌کنند. با فرض اینکه یک مسئله یادگیری جدید داده شده باشد، پیش‌بینی‌های مجموعه الگوریتم‌های انتخاب شده ترکیب می‌شوند (به عنوان مثال با رأی‌گیری (وزن‌دار)) تا پیش‌بینی نهایی را تشکیل دهند. از آنجا که به نظر می‌رسد هر الگوریتم روی زیرمجموعه‌ای از مسائل کار می‌کند، امید است استفاده از ترکیبی از الگوریتم‌ها برای حل مسائل انعطاف‌پذیری بیشتر و پیش‌بینی‌های بهتری را به همراه داشته باشد.
  • تقویت مشابه تعمیم‌دهی پشته‌ای است با این تفاوت که یک الگوریتم مشابه را چندین بار اعمال می‌کند به طوری که نمونه داده‌های آموزشی در هر مرحله از اجرا وزن‌های متفاوتی را می‌گیرند. این فرایند پیش‌بینی‌های متفاوتی را نتیجه می‌دهد که هر یک بر پیش‌بینی صحیح یک زیرمجموعه از داده‌ها تمرکز دارد و ترکیب این پیش‌بینی‌ها با یک‌دیگر نتایج بهتر (اما گران تری) را تولید می‌کند. • انتخاب سوگیری به صورت پویا توسط تغییر دادن سوگیری استقرایی یک الگوریتم یادگیری برای مطابقت با مسئله داده شده صورت می‌گیرد. این کار با تغییر جنبه‌های اصلی الگوریتم یادگیری مانند نحوه نمایش فرضیه، فرمول‌های ابتکاری استفاده شده یا نحوه انتخاب و تنظیم پارامترها انجام می‌شود. رویکردهای مختلفی برای انتخاب سوگیری به صورت پویا وجود دارد.
  • انتقال استقرایی چگونگی بهبود فرایند یادگیری در طول زمان را مطالعه می‌کند. فراداده متشکل از دانش مربوط به اپیزودهای یادگیری قبلی است و جهت توسعه کارآمد یک فرضیه مؤثر برای یک کار جدید استفاده می‌شود. یک رویکرد مرتبط یادگیری یادگیری نامیده می‌شود که در آن هدف استفاده از دانش کسب شده از یک حوزه برای کمک به یادگیری در حوزه‌های دیگر است.
  • سایر رویکردهایی که از فراداده برای بهبود یادگیری خودکار استفاده می‌کنند عبارتند از یادگیری سیستم‌های طبقه‌بندی، استدلال مبتنی بر مورد و ارضای محدودیت‌ها.
  • برخی مطالعات نظری و ابتدایی در مورد استفاده از تجزیه و تحلیل رفتاری کاربردی به عنوان زیربنایی برای فرایادگیری عملکرد آموزندگان انسانی و تنظیم دوره آموزشی یک عامل مصنوعی به واسطه یک عامل آغاز شده‌اند.
  • یادگیری ماشین اتوماتیک مانند پروژه "AI building AI" گوگل‌برین، که به نقل از گوگل برای مدت کوتاهی از بنچ‌مارک‌های موجود در سال ۲۰۱۷ از ایمیج‌نت فراتر رفت.

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ Schmidhuber, Jürgen (1987). "Evolutionary principles in self-referential learning, or on learning how to learn: the meta-meta-... hook" (PDF). Diploma Thesis, Tech. Univ. Munich.
  2. ۲٫۰ ۲٫۱ ۲٫۲ Schaul, Tom; Schmidhuber, Jürgen (2010). "Metalearning". Scholarpedia. 5 (6): 4650. Bibcode:2010SchpJ...5.4650S. doi:10.4249/scholarpedia.4650.
  3. P. E. Utgoff (1986). "Shift of bias for inductive concept learning". In R. Michalski, J. Carbonell, & T. Mitchell: Machine Learning: 163–190.
  4. Lemke, Christiane; Budka, Marcin; Gabrys, Bogdan (2013-07-20). "Metalearning: a survey of trends and technologies". Artificial Intelligence Review (به انگلیسی). 44 (1): 117–130. doi:10.1007/s10462-013-9406-y. ISSN 0269-2821. PMC 4459543. PMID 26069389.
  5. Gordon, Diana; Desjardins, Marie (1995). "Evaluation and Selection of Biases in Machine Learning" (PDF). Machine Learning. 20: 5–22. doi:10.1023/A:1022630017346. Retrieved 27 March 2020.
  6. ۶٫۰ ۶٫۱ ۶٫۲ ۶٫۳ [۱] Lilian Weng(2018). Meta-Learning: Learning to Learn Fast. OpenAI Blog. November 2018. Retrieved 27 October 2019
  7. [۲] Adam Santoro, Sergey Bartunov, Daan Wierstra, Timothy Lillicrap. Meta-Learning with Memory-Augmented Neural Networks. Google DeepMind. Retrieved 29 October 2019
  8. [۳] Tsendsuren Munkhdalai, Hong Yu(2017). Meta Networks.arXiv:1703.00837 [cs.LG]
  9. [۴] Gregory Koch GKOCH, Richard Zemel ZEMEL, Ruslan Salakhutdinov(2015).Siamese Neural Networks for One-shot Image Recognition. Department of Computer Science, University of Toronto. Toronto, Ontario, Canada.
  10. [۵] Vinyals, O. , Blundell, C. , Lillicrap, T. , Kavukcuoglu, K. , & Wierstra, D. . (2016). Matching networks for one shot learning. Google DeepMind. Retrieved 3 November, 2019
  11. [۶] Sung, F. , Yang, Y. , Zhang, L. , Xiang, T. , Torr, P. H. S. , & Hospedales, T. M. . (2018). Learning to compare: relation network for few-shot learning
  12. [۷] Snell, J. , Swersky, K. , & Zemel, R. S. . (2017). Prototypical networks for few-shot learning.
  13. [۸] Sachin Ravi∗and Hugo Larochelle(2017). ” Optimization as a model for few-shot learning”. ICLR 2017. Retrieved 3 November, 2019
  14. [۹] Chelsea Finn, Pieter Abbeel, Sergey Levine(2017). “Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks” arXiv:1703.03400 [cs.LG]
  15. [۱۰] Chelsea Finn, Pieter Abbeel, Sergey Levine(2017). Alex Nichol and Joshua Achiam and John Schulman(2018). ” On First-Order Meta-Learning Algorithms”. arXiv:1803.02999 [cs.LG]
  16. Schmidhuber, Jürgen (1993). "A self-referential weight matrix". Proceedings of ICANN'93, Amsterdam: 446–451.
  17. Hochreiter, Sepp; Younger, A. S.; Conwell, P. R. (2001). "Learning to Learn Using Gradient Descent". Proceedings of ICANN'01: 87–94.
  18. Andrychowicz, Marcin; Denil, Misha; Gomez, Sergio; Hoffmann, Matthew; Pfau, David; Schaul, Tom; Shillingford, Brendan; de Freitas, Nando (2017). "Learning to learn by gradient descent by gradient descent". Proceedings of ICML'17, Sydney, Australia.
  19. Schmidhuber, Jürgen (1994). "On learning how to learn learning strategies". Technical Report FKI-198-94, Tech. Univ. Munich.
  20. Schmidhuber, Jürgen; Zhao, J.; Wiering, M. (1997). "Shifting inductive bias with success-story algorithm, adaptive Levin search, and incremental self-improvement". Machine Learning. 28: 105–130. doi:10.1023/a:1007383707642.
  21. Schmidhuber, Jürgen (2006). "Gödel machines: Fully Self-Referential Optimal Universal Self-Improvers". In B. Goertzel & C. Pennachin, Eds. : Artificial General Intelligence: 199–226.
  22. Finn, Chelsea; Abbeel, Pieter; Levine, Sergey (2017). "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks". arXiv:1703.03400 [cs.LG].

پیوند به بیرون[ویرایش]