یادگیری تک شات

از ویکی‌پدیا، دانشنامهٔ آزاد

یادگیری تک شات (به انگلیسی: One-shot learning)، یک مسئله طبقه بندی اشیا، بیشتر در مسائل بینایی ماشین، میباشد. در حالی که اکثر الگوریتم‌های دسته‌بندی اشیاء مبتنی بر یادگیری ماشین، برای آموزش صدها یا هزاران مثال نیاز دارند، هدف یادگیری One-Shot یا تک‌شات، طبقه‌بندی اشیا از یک یا تنها چند مثال است. اصطلاح یادگیری چند شات (Few-shot learning) نیز برای این مسائل استفاده می شود، به خصوص زمانی که به بیش از یک مثال نیاز باشد.

انگیزه[ویرایش]

توانایی یادگیری دسته بندی اشیاء از چند نمونه و با سرعت سریع در انسان اثبات شده است.[۱][۲] تخمین زده می شود که یک کودک تقریباً تمام 10 تا 30 هزار دسته شی در جهان را در سن شش سالگی یاد می گیرد.[۳] این نه تنها به دلیل قدرت محاسباتی ذهن انسان است، بلکه به دلیل توانایی آن در ترکیب و یادگیری دسته‌های اشیاء جدید از اطلاعات موجود در مورد دسته‌های مختلف و قبلاً آموخته شده است. دو مثال از دو دسته شیء ارائه شده است: یک، یک شی ناشناخته که از اشکال آشنا تشکیل شده است، دوم، یک شکل ناشناخته و بی شکل. تشخیص دسته اولی برای انسان بسیار آسان تر از دومی است، که نشان می دهد انسان ها هنگام یادگیری دسته بندی های جدید از مقوله هایی که قبلا آموخته اند استفاده کنند. انگیزه اصلی برای حل یادگیری تک شات این است که سیستم‌ها، مانند انسان‌ها، می‌توانند از دانش در مورد دسته‌بندی اشیا برای طبقه‌بندی اشیاء جدید استفاده کنند.

پیشینه[ویرایش]

مانند بسیاری از روشهای طبقه‌بندی، یادگیری تک‌شات شامل سه چالش اصلی است:

  • نمایش: اشیاء و دسته بندی ها چگونه باید توصیف شوند؟
  • یادگیری: چگونه می توان چنین توصیفاتی ایجاد کرد؟
  • تشخیص: چگونه می توان یک شی شناخته شده را بدون در نظر گرفتن نقطه دید و نور و کلاتر فیلتر کرد؟

یادگیری تک شات با تاکید بر انتقال دانش، که از مقوله‌های قبلاً آموخته شده استفاده می‌کند، با الگوریتم‌های تشخیص تک شی و تشخیص دسته استاندارد متفاوت است.

  • پارامترهای مدل: از پارامترهای مدل بر اساس شباهت بین دسته های قدیمی و جدید استفاده مجدد می شود. دسته‌ها ابتدا بر روی مثال‌های آموزشی متعددی آموخته می‌شوند، سپس دسته‌های جدید با استفاده از تبدیل پارامترهای مدل از آن دسته‌های اولیه یا انتخاب پارامترهای مرتبط برای یک طبقه‌بندی‌کننده، یاد گرقته میشوند.
  • شتراک‌گذاری ویژگی: بخش‌ها یا ویژگی‌های اشیاء را در دسته‌ها به اشتراک می‌گذارد. یک الگوریتم با به حداکثر رساندن اطلاعات متقابل وصله‌ها، «اطلاعات تشخیصی» را در وصله‌ها از دسته‌های قبلاً آموخته‌شده استخراج می‌کند، و سپس این ویژگی‌ها را برای یادگیری یک دسته جدید اعمال می‌کند. به عنوان مثال، یک دسته ی سگ ممکن است در یک عکس از دانش قبلی در مورد دسته‌های اسب و گاو آموخته شود، زیرا اشیاء سگ ممکن است دارای تکه‌های متمایز مشابهی باشند.
  • اطلاعات متنی: به دانش کلی از صحنه ای که شی در آن ظاهر می شود متوسل می شود. چنین اطلاعات کلی را می توان به عنوان توزیع فرکانس در یک چارچوب میدانی تصادفی شرطی برای شناسایی اشیا استفاده کرد. همچنین می توان ارتفاع دوربین و هندسه صحنه را در نظر گرفت. الگوریتم های این نوع دو مزیت دارند. اول، آنها دسته بندی اشیا را یاد می گیرند که نسبتاً متفاوت هستند. و دوم، آنها در موقعیت‌های موقتی که تصویری با دست برش و تراز نشده است، عملکرد خوبی دارند.

تئوری[ویرایش]

الگوریتم یادگیری تک شات بیزین پیش زمینه و پس‌زمینه تصاویر را که توسط ترکیبی از مدل‌های صورت فلکی پارامتر شده است، نشان می‌دهد. در طول مرحله یادگیری، پارامترهای این مدل‌ها با استفاده از پارامتر توزیع مزدوج پیشین و انتظار-بیشینه‌سازی متغیر بیزی (VBEM) آموخته می‌شوند. در این مرحله، دسته‌های اشیایی که قبلاً آموخته‌اند، انتخاب پارامترهای مدل را از طریق انتقال توسط اطلاعات متنی اطلاع می‌دهند. برای تشخیص شی در تصاویر جدید، احتمال پسین به دست آمده در طول مرحله یادگیری، در چارچوب تصمیم بیزی برای تخمین نسبت p(object | test, train) به p(background clutter | test, train) استفاده می‌شود که در آن p احتمال نتیجه است.

چارچوب بیزین

با توجه به وظیفه یافتن یک شی خاص در یک تصویر، هدف کلی الگوریتم یادگیری تک شات بیزی، مقایسه احتمال وجود شی در مقابل احتمال وجود فقط درهم ریختگی پس‌زمینه است. گر احتمال اولی بیشتر باشد، الگوریتم وجود شی را گزارش می کند، در غیر این صورت الگوریتم عدم وجود آن را گزارش می کند. برای محاسبه این احتمالات، کلاس شی باید از مجموعه ای از (1 تا 5) تصاویر آموزشی حاوی مثال ها مدل شود. برای رسمی‌سازی این ایده‌ها، اجازه دهید I تصویر درخواستی باشد، که شامل نمونه‌ای از دسته پیش‌زمینه یا ا فقط درهم ریختگی پس‌زمینه یک دسته پس‌زمینه عمومی است .

منابع[ویرایش]