یادگیری تک شات

یادگیری تک شات (به انگلیسی: One-shot learning)، یک مسئله طبقه بندی اشیا، بیشتر در مسائل بینایی ماشین، میباشد. در حالی که اکثر الگوریتم‌های دسته‌بندی اشیاء مبتنی بر یادگیری ماشین، برای آموزش صدها یا هزاران مثال نیاز دارند، هدف یادگیری One-Shot یا تک‌شات، طبقه‌بندی اشیا از یک یا تنها چند مثال است. اصطلاح یادگیری چند شات (Few-shot learning) نیز برای این مسائل استفاده می شود، به خصوص زمانی که به بیش از یک مثال نیاز باشد.

انگیزه

توانایی یادگیری دسته بندی اشیاء از چند نمونه و با سرعت سریع در انسان اثبات شده است.[۱][۲] تخمین زده می شود که یک کودک تقریباً تمام 10 تا 30 هزار دسته شی در جهان را در سن شش سالگی یاد می گیرد.[۳] این نه تنها به دلیل قدرت محاسباتی ذهن انسان است، بلکه به دلیل توانایی آن در ترکیب و یادگیری دسته‌های اشیاء جدید از اطلاعات موجود در مورد دسته‌های مختلف و قبلاً آموخته شده است. دو مثال از دو دسته شیء ارائه شده است: یک، یک شی ناشناخته که از اشکال آشنا تشکیل شده است، دوم، یک شکل ناشناخته و بی شکل. تشخیص دسته اولی برای انسان بسیار آسان تر از دومی است، که نشان می دهد انسان ها هنگام یادگیری دسته بندی های جدید از مقوله هایی که قبلا آموخته اند استفاده کنند. انگیزه اصلی برای حل یادگیری تک شات این است که سیستم‌ها، مانند انسان‌ها، می‌توانند از دانش در مورد دسته‌بندی اشیا برای طبقه‌بندی اشیاء جدید استفاده کنند.

پیشینه

مانند بسیاری از روشهای طبقه‌بندی، یادگیری تک‌شات شامل سه چالش اصلی است:

نمایش: اشیاء و دسته بندی ها چگونه باید توصیف شوند؟
یادگیری: چگونه می توان چنین توصیفاتی ایجاد کرد؟
تشخیص: چگونه می توان یک شی شناخته شده را بدون در نظر گرفتن نقطه دید و نور و کلاتر فیلتر کرد؟

یادگیری تک شات با تاکید بر انتقال دانش، که از مقوله‌های قبلاً آموخته شده استفاده می‌کند، با الگوریتم‌های تشخیص تک شی و تشخیص دسته استاندارد متفاوت است.

پارامترهای مدل: از پارامترهای مدل بر اساس شباهت بین دسته های قدیمی و جدید استفاده مجدد می شود. دسته‌ها ابتدا بر روی مثال‌های آموزشی متعددی آموخته می‌شوند، سپس دسته‌های جدید با استفاده از تبدیل پارامترهای مدل از آن دسته‌های اولیه یا انتخاب پارامترهای مرتبط برای یک طبقه‌بندی‌کننده، یاد گرقته میشوند.
شتراک‌گذاری ویژگی: بخش‌ها یا ویژگی‌های اشیاء را در دسته‌ها به اشتراک می‌گذارد. یک الگوریتم با به حداکثر رساندن اطلاعات متقابل وصله‌ها، «اطلاعات تشخیصی» را در وصله‌ها از دسته‌های قبلاً آموخته‌شده استخراج می‌کند، و سپس این ویژگی‌ها را برای یادگیری یک دسته جدید اعمال می‌کند. به عنوان مثال، یک دسته ی سگ ممکن است در یک عکس از دانش قبلی در مورد دسته‌های اسب و گاو آموخته شود، زیرا اشیاء سگ ممکن است دارای تکه‌های متمایز مشابهی باشند.
اطلاعات متنی: به دانش کلی از صحنه ای که شی در آن ظاهر می شود متوسل می شود. چنین اطلاعات کلی را می توان به عنوان توزیع فرکانس در یک چارچوب میدانی تصادفی شرطی برای شناسایی اشیا استفاده کرد. همچنین می توان ارتفاع دوربین و هندسه صحنه را در نظر گرفت. الگوریتم های این نوع دو مزیت دارند. اول، آنها دسته بندی اشیا را یاد می گیرند که نسبتاً متفاوت هستند. و دوم، آنها در موقعیت‌های موقتی که تصویری با دست برش و تراز نشده است، عملکرد خوبی دارند.

تئوری

الگوریتم یادگیری تک شات بیزین پیش زمینه و پس‌زمینه تصاویر را که توسط ترکیبی از مدل‌های صورت فلکی پارامتر شده است، نشان می‌دهد. در طول مرحله یادگیری، پارامترهای این مدل‌ها با استفاده از پارامتر توزیع مزدوج پیشین و انتظار-بیشینه‌سازی متغیر بیزی (VBEM) آموخته می‌شوند. در این مرحله، دسته‌های اشیایی که قبلاً آموخته‌اند، انتخاب پارامترهای مدل را از طریق انتقال توسط اطلاعات متنی اطلاع می‌دهند. برای تشخیص شی در تصاویر جدید، احتمال پسین به دست آمده در طول مرحله یادگیری، در چارچوب تصمیم بیزی برای تخمین نسبت p(object | test, train) به p(background clutter | test, train) استفاده می‌شود که در آن p احتمال نتیجه است.

چارچوب بیزین

با توجه به وظیفه یافتن یک شی خاص در یک تصویر، هدف کلی الگوریتم یادگیری تک شات بیزی، مقایسه احتمال وجود شی در مقابل احتمال وجود فقط درهم ریختگی پس‌زمینه است. گر احتمال اولی بیشتر باشد، الگوریتم وجود شی را گزارش می کند، در غیر این صورت الگوریتم عدم وجود آن را گزارش می کند. برای محاسبه این احتمالات، کلاس شی باید از مجموعه ای از (1 تا 5) تصاویر آموزشی حاوی مثال ها مدل شود. برای رسمی‌سازی این ایده‌ها، اجازه دهید I تصویر درخواستی باشد، که شامل نمونه‌ای از دسته پیش‌زمینه $O_{fg}$ یا ا فقط درهم ریختگی پس‌زمینه یک دسته پس‌زمینه عمومی است $O_{bg}$ .

منابع

Li, Fei Fei (2006). "Knowledge transfer in learning to recognize visual object classes" (PDF). International Conference on Development and Learning (ICDL).
Li, Fei Fei; Fergus, R.; Perona, P. (2006). "One-Shot learning of object categories" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (4): 594–611. doi:10.1109/TPAMI.2006.79. PMID 16566508. S2CID 6953475.
Miller; Matsakis; Viola (2000). "Learning from One Example through Shared Densities on Transforms" (PDF). Proc. Computer Vision and Pattern Recognition.
Li, F.F.; VanRullen, R.; Coch, C.; Perona, P. (2002). "Rapid natural scene categorization in the near absence of attention". PNAS. 99 (14): 9596–9601. Bibcode:2002PNAS...99.9596L. doi:10.1073/pnas.092277599. PMC 123186. PMID 12077298.
Thorpe, S.; Fize, D.; Marlot, C. (1996). "Speed of processing in the human visual system" (PDF). Nature. 381 (6582): 520–522, 1996. Bibcode:1996Natur.381..520T. doi:10.1038/381520a0. PMID 8632824. S2CID 4303570.
Biederman, I. (1987). "Recognition-by-Components: a theory of human understanding" (PDF). Psychological Review. 94 (2): 115–147. doi:10.1037/0033-295X.94.2.115. PMID 3575582.
Fink, M. (2004). "Object classification from a single example utilizing class relevance pseudo-metrics". NIPS. CiteSeerX 10.1.1.91.7461.
Bart; Ullman (2005). "Cross-generalization: learning novel classes from a single example by feature replacement" (PDF). CVPR.
Murphy, K.; Torralba, A.; Freeman, W.T. (2004). "Using the forest to see the trees: a graphical model relating features, objects, and scenes" (PDF). NIPS.
Hoiem, D.; Efros, A.A.; Herbert, M. (2005). "Geometric context from a single image" (PDF). ICCV.
Attias, H. (1999). "Inferring Parameters and Structure of Latent Variable Models by Variational Bayes". Proc. Of the 15th Conf. In Uncertainty in Artificial Intelligence: 21–30. arXiv:1301.6676.
Burl, M.; Weber, M.; Perona, P. (1996). "A Probabilistic Approach to Object Recognition Using Local Photometry and Global Geometry" (PDF). Proc. European Conf. Computer Vision. Lecture Notes in Computer Science. 1407: 628–641. doi:10.1007/BFb0054769. ISBN 978-3-540-64613-6.
Fergus, R.; Perona, P.; Zisserman, A. (2003). "Object Class Recognition by Unsupervised Scale-Invariant Learning" (PDF). Proc. Computer Vision and Pattern Recognition: 264–271.
Weber, M.; Welling, M.; Perona, P. (2000). "Unsupervised Learning of Models for Recognition" (PDF). Proc. European Conf. Computer Vision. Lecture Notes in Computer Science. 1842: 101–108. doi:10.1007/3-540-45054-8_2. ISBN 978-3-540-67685-0.
Kadir, T.; Brady, M. (2001). "Scale, Saliency, and Image Description". International Journal of Computer Vision. 45 (2): 83–105. doi:10.1023/A:1012460413855. S2CID 825395.