یادگیری انتقالی

از ویکی‌پدیا، دانشنامهٔ آزاد

یادگیری انتقالی، یک مسئله تحقیقاتی در علم یادگیری ماشین است که بر ذخیره دانش به دست آمده در حین حل یک مشکل و به‌کارگیری آن برای یک مشکل متفاوت اما مرتبط تمرکز دارد.[۱] به عنوان مثال، دانش به دست آمده در حین یادگیری تشخیص خودروها می‌تواند هنگام تلاش برای تشخیص کامیون‌ها اعمال شود. این حوزه تحقیقاتی تا حدی با تاریخ طولانی ادبیات روان‌شناختی در مورد انتقال یادگیری ارتباط دارد، اگرچه پیوندهای عملی بین این دو زمینه محدود است. از نظر عملی، استفاده مجدد یا انتقال اطلاعات از وظایفی که قبلاً آموخته شده‌است در یادگیری وظایف جدید، پتانسیل بهبود قابل‌توجهی در کارایی نمونه یک عامل یادگیری تقویتی دارد.

نحوه انجام یادگیری انتقالی[ویرایش]

تصویری شماتیک از نحوه انجام شدن یادگیری انتقالی

برای مثال، در بینایی رایانه ای، شبکه‌های عصبی معمولاً سعی می‌کنند لبه‌ها را در لایه‌های قبلی، اشکال در لایه میانی و برخی ویژگی‌های خاص وظیفه را در لایه‌های بعدی تشخیص دهند. در یادگیری انتقالی از لایه‌های اولیه و میانی استفاده می‌شود و فقط لایه‌های آخر را بازآموزی می‌کنیم. این کمک می‌کند تا داده‌های برچسب‌گذاری‌شده مربوط به کاری را که در ابتدا روی آن آموزش داده شده بود، افزایش دهد.[۲]

بیایید راجع به مثالی صحبت کنیم که برای تشخیص کوله پشتی روی تصویر آموزش دیده‌است و این دفعه برای شناسایی عینک آفتابی استفاده می‌شود. در لایه‌های قبلی، مدل یادگرفته است اشیا را تشخیص دهد، به همین دلیل ما فقط لایه‌های آخر را دوباره آموزش می‌دهیم تا یاد بگیرد که چه چیزی عینک آفتابی را از اشیاء دیگر جدا می‌کند.

در یادگیری انتقالی، ما سعی می‌کنیم تا حد امکان دانش را از کار قبلی که مدل آموزش داده شده بود، به کار جدید در دست انتقال دهیم. این دانش بسته به مشکل و داده‌ها می‌تواند به اشکال مختلف باشد. برای مثال، می‌تواند نحوه ترکیب مدل‌ها باشد که به ما امکان می‌دهد اشیاء جدید را راحت‌تر شناسایی کنیم.

زمان مناسب برای استفاده از یادگیری انتقالی[ویرایش]

توضیحات زمان مناسب برای یادگیری انتقالی روی نمودار

یادگیری انتقالی یک بهینه‌سازی، میانبری برای صرفه جویی در زمان یا به دست آوردن عملکرد بهتر است. به‌طور کلی، مشخص نیست که استفاده از یادگیری انتقالی در عمل تا زمانی که مدل توسعه یافته و ارزیابی نشده باشد، سودی خواهد داشت. عموماً گفته می‌شود در مورد یادگیری انتقالی سه مزیت احتمالی را که باید به دنبال آنها بود، اینگونه شرح می‌دهند:[۳]

  • شروع بالاتر: مهارت اولیه (قبل از اصلاح مدل) در مدل منبع بالاتر از آن است.
  • شیب بالاتر: میزان بهبود مهارت در طول آموزش مدل منبع تندتر از آن است که در غیر این صورت بود.
  • مجانب بالاتر: مهارت همگرای مدل آموزش دیده بهتر از آن است.

کاربردهای یادگیری انتقالی[۴][ویرایش]

یادگیری از شبیه‌سازی[ویرایش]

برای بسیاری از برنامه‌های یادگیری ماشین که برای تعامل به سخت‌افزار متکی هستند، جمع‌آوری داده‌ها و آموزش یک مدل در دنیای واقعی یا پرهزینه، زمان‌بر یا به سادگی بسیار خطرناک است؛ بنابراین نیاز به روش‌های دیگر و کم خطرتر داریم. شبیه‌سازی ابزار ترجیحی برای این است و برای فعال کردن بسیاری از سیستم‌های پیشرفته یادگیری ماشین در دنیای واقعی استفاده می‌شود.

یادگیری از یک شبیه‌سازی و به‌کارگیری دانش کسب‌شده در دنیای واقعی، نمونه‌ای دیگر از سناریوی یادگیری انتقال است، زیرا فضاهای ویژگی بین منبع و دامنه هدف یکسان است (هر دو معمولاً به پیکسل‌ها متکی هستند)، اما توزیع‌های احتمال حاشیه‌ای بین شبیه‌سازی و واقعیت متفاوت است، یعنی اشیا در شبیه‌سازی و منبع اولیه، متفاوت به نظر می‌رسند، اگرچه این تفاوت با واقعی تر شدن شبیه‌سازی‌ها کاهش می‌یابد. در عین حال، توزیع احتمال شرطی بین شبیه‌سازی و دنیای واقعی ممکن است متفاوت باشد زیرا شبیه‌سازی قادر به تکرار کامل همه واکنش‌ها در دنیای واقعی نیست، به عنوان مثال. یک موتور فیزیک نمی‌تواند به‌طور کامل تعاملات پیچیده اشیاء دنیای واقعی را تقلید کند.

یادگیری از شبیه‌سازی این مزیت را دارد که جمع‌آوری داده‌ها را آسان می‌کند زیرا اشیاء را می‌توان به راحتی محدود و تجزیه و تحلیل کرد، در حالی که به‌طور همزمان امکان آموزش سریع را فراهم می‌کند، زیرا یادگیری می‌تواند در چندین نمونه موازی شود. در نتیجه، پیش نیاز پروژه‌های یادگیری ماشینی در مقیاس بزرگ است که نیاز به تعامل با دنیای واقعی دارند، مانند ماشین‌های خودران.

سازگاری با دامنه‌های جدید[ویرایش]

انطباق دامنه یک نیاز رایج در بینایی رایانه ای است، زیرا اغلب داده‌هایی که در آن اطلاعات برچسب‌گذاری شده به راحتی قابل دسترسی است و داده‌هایی که ما واقعاً به آنها اهمیت می‌دهیم متفاوت است، خواه این مربوط به شناسایی دوچرخه‌ها باشد یا برخی از اشیاء دیگر در طبیعت. حتی اگر داده‌های آموزش و آزمون یکسان به نظر برسند، داده‌های آموزشی ممکن است همچنان حاوی یک سوگیری باشد که برای انسان غیرقابل محسوس است اما مدل از آن برای برازش بیش از حد بر روی داده‌های آموزشی استفاده می‌کند.

یکی دیگر از سناریوهای رایج انطباق دامنه مربوط به تطبیق با انواع مختلف متن است. ابزارهای استاندارد NLP مانند برچسب‌ها یا تجزیه‌کننده‌های بخشی از گفتار معمولاً بر روی داده‌های خبری مانند وال استریت ژورنال آموزش داده می‌شوند که در طول تاریخ برای ارزیابی این مدل‌ها استفاده می‌شده‌است. با این حال، مدل‌هایی که بر روی داده‌های خبری آموزش دیده‌اند، در مقابله با فرم‌های متنی جدیدتر مانند پیام‌های رسانه‌های اجتماعی و چالش‌هایی که ارائه می‌کنند، مشکل دارند.

انتقال دانش به زبان‌ها[ویرایش]

در نهایت، یادگیری از یک زبان و به کار بردن دانش ما در زبان دیگر، یکی دیگر از کاربردهای قاتل یادگیری انتقالی است که قبلاً در اینجا در زمینه مدل‌های تعبیه چند زبانه ساخته شده‌است. روش‌های انطباق بین زبانی قابل اعتماد به ما این امکان را می‌دهد که از حجم وسیعی از داده‌های برچسب‌گذاری‌شده به زبان انگلیسی استفاده کنیم و آن‌ها را برای هر زبانی، به‌ویژه زبان‌هایی که کمتر از آن استفاده می‌کنند و واقعاً منابع کمی دارند، اعمال کنیم. با توجه به وضعیت فعلی هنر، این هنوز هم آرمان‌شهر به نظر می‌رسد، اما پیشرفت‌های اخیر مانند ترجمه شات صفر[۵] پیشرفت سریع در این زمینه را نوید می‌دهد.

منابع[ویرایش]

  1. «Spring Research Presentation | College of Physical and Mathematical Sciences». web.archive.org. ۲۰۰۷-۰۸-۰۱. بایگانی‌شده از اصلی در ۱ اوت ۲۰۰۷. دریافت‌شده در ۲۰۲۲-۱۲-۱۵.
  2. "What Is Transfer Learning? A Guide for Deep Learning | Built In". builtin.com (به انگلیسی). Retrieved 2022-12-21.
  3. Brownlee، Jason (۲۰۱۷-۱۲-۱۹). «A Gentle Introduction to Transfer Learning for Deep Learning». MachineLearningMastery.com (به انگلیسی). دریافت‌شده در ۲۰۲۲-۱۲-۱۵.
  4. "Transfer Learning - Machine Learning's Next Frontier". Sebastian Ruder (به انگلیسی). 2017-03-21. Retrieved 2022-12-15.
  5. Johnson, Melvin; Schuster, Mike; Le, Quoc V.; Krikun, Maxim; Wu, Yonghui; Chen, Zhifeng; Thorat, Nikhil; Viégas, Fernanda; Wattenberg, Martin (2017-08-21). "Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation". arXiv:1611.04558 [cs].