یادگیری تک شات
یادگیری تک شات (به انگلیسی: One-shot learning)، یک مسئله طبقه بندی اشیا، بیشتر در مسائل بینایی ماشین، میباشد. در حالی که اکثر الگوریتمهای دستهبندی اشیاء مبتنی بر یادگیری ماشین، برای آموزش صدها یا هزاران مثال نیاز دارند، هدف یادگیری One-Shot یا تکشات، طبقهبندی اشیا از یک یا تنها چند مثال است. اصطلاح یادگیری چند شات (Few-shot learning) نیز برای این مسائل استفاده می شود، به خصوص زمانی که به بیش از یک مثال نیاز باشد.
انگیزه
[ویرایش]توانایی یادگیری دسته بندی اشیاء از چند نمونه و با سرعت سریع در انسان اثبات شده است.[۱][۲] تخمین زده می شود که یک کودک تقریباً تمام 10 تا 30 هزار دسته شی در جهان را در سن شش سالگی یاد می گیرد.[۳] این نه تنها به دلیل قدرت محاسباتی ذهن انسان است، بلکه به دلیل توانایی آن در ترکیب و یادگیری دستههای اشیاء جدید از اطلاعات موجود در مورد دستههای مختلف و قبلاً آموخته شده است. دو مثال از دو دسته شیء ارائه شده است: یک، یک شی ناشناخته که از اشکال آشنا تشکیل شده است، دوم، یک شکل ناشناخته و بی شکل. تشخیص دسته اولی برای انسان بسیار آسان تر از دومی است، که نشان می دهد انسان ها هنگام یادگیری دسته بندی های جدید از مقوله هایی که قبلا آموخته اند استفاده کنند. انگیزه اصلی برای حل یادگیری تک شات این است که سیستمها، مانند انسانها، میتوانند از دانش در مورد دستهبندی اشیا برای طبقهبندی اشیاء جدید استفاده کنند.
پیشینه
[ویرایش]مانند بسیاری از روشهای طبقهبندی، یادگیری تکشات شامل سه چالش اصلی است:
- نمایش: اشیاء و دسته بندی ها چگونه باید توصیف شوند؟
- یادگیری: چگونه می توان چنین توصیفاتی ایجاد کرد؟
- تشخیص: چگونه می توان یک شی شناخته شده را بدون در نظر گرفتن نقطه دید و نور و کلاتر فیلتر کرد؟
یادگیری تک شات با تاکید بر انتقال دانش، که از مقولههای قبلاً آموخته شده استفاده میکند، با الگوریتمهای تشخیص تک شی و تشخیص دسته استاندارد متفاوت است.
- پارامترهای مدل: از پارامترهای مدل بر اساس شباهت بین دسته های قدیمی و جدید استفاده مجدد می شود. دستهها ابتدا بر روی مثالهای آموزشی متعددی آموخته میشوند، سپس دستههای جدید با استفاده از تبدیل پارامترهای مدل از آن دستههای اولیه یا انتخاب پارامترهای مرتبط برای یک طبقهبندیکننده، یاد گرقته میشوند.
- شتراکگذاری ویژگی: بخشها یا ویژگیهای اشیاء را در دستهها به اشتراک میگذارد. یک الگوریتم با به حداکثر رساندن اطلاعات متقابل وصلهها، «اطلاعات تشخیصی» را در وصلهها از دستههای قبلاً آموختهشده استخراج میکند، و سپس این ویژگیها را برای یادگیری یک دسته جدید اعمال میکند. به عنوان مثال، یک دسته ی سگ ممکن است در یک عکس از دانش قبلی در مورد دستههای اسب و گاو آموخته شود، زیرا اشیاء سگ ممکن است دارای تکههای متمایز مشابهی باشند.
- اطلاعات متنی: به دانش کلی از صحنه ای که شی در آن ظاهر می شود متوسل می شود. چنین اطلاعات کلی را می توان به عنوان توزیع فرکانس در یک چارچوب میدانی تصادفی شرطی برای شناسایی اشیا استفاده کرد. همچنین می توان ارتفاع دوربین و هندسه صحنه را در نظر گرفت. الگوریتم های این نوع دو مزیت دارند. اول، آنها دسته بندی اشیا را یاد می گیرند که نسبتاً متفاوت هستند. و دوم، آنها در موقعیتهای موقتی که تصویری با دست برش و تراز نشده است، عملکرد خوبی دارند.
تئوری
[ویرایش]الگوریتم یادگیری تک شات بیزین پیش زمینه و پسزمینه تصاویر را که توسط ترکیبی از مدلهای صورت فلکی پارامتر شده است، نشان میدهد. در طول مرحله یادگیری، پارامترهای این مدلها با استفاده از پارامتر توزیع مزدوج پیشین و انتظار-بیشینهسازی متغیر بیزی (VBEM) آموخته میشوند. در این مرحله، دستههای اشیایی که قبلاً آموختهاند، انتخاب پارامترهای مدل را از طریق انتقال توسط اطلاعات متنی اطلاع میدهند. برای تشخیص شی در تصاویر جدید، احتمال پسین به دست آمده در طول مرحله یادگیری، در چارچوب تصمیم بیزی برای تخمین نسبت p(object | test, train) به p(background clutter | test, train) استفاده میشود که در آن p احتمال نتیجه است.
چارچوب بیزین
با توجه به وظیفه یافتن یک شی خاص در یک تصویر، هدف کلی الگوریتم یادگیری تک شات بیزی، مقایسه احتمال وجود شی در مقابل احتمال وجود فقط درهم ریختگی پسزمینه است. گر احتمال اولی بیشتر باشد، الگوریتم وجود شی را گزارش می کند، در غیر این صورت الگوریتم عدم وجود آن را گزارش می کند. برای محاسبه این احتمالات، کلاس شی باید از مجموعه ای از (1 تا 5) تصاویر آموزشی حاوی مثال ها مدل شود. برای رسمیسازی این ایدهها، اجازه دهید I تصویر درخواستی باشد، که شامل نمونهای از دسته پیشزمینه یا ا فقط درهم ریختگی پسزمینه یک دسته پسزمینه عمومی است .
منابع
[ویرایش]- Li, Fei Fei (2006). "Knowledge transfer in learning to recognize visual object classes" (PDF). International Conference on Development and Learning (ICDL).
- Li, Fei Fei; Fergus, R.; Perona, P. (2006). "One-Shot learning of object categories" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (4): 594–611. doi:10.1109/TPAMI.2006.79. PMID 16566508. S2CID 6953475.
- Miller; Matsakis; Viola (2000). "Learning from One Example through Shared Densities on Transforms" (PDF). Proc. Computer Vision and Pattern Recognition.
- Li, F.F.; VanRullen, R.; Coch, C.; Perona, P. (2002). "Rapid natural scene categorization in the near absence of attention". PNAS. 99 (14): 9596–9601. Bibcode:2002PNAS...99.9596L. doi:10.1073/pnas.092277599. PMC 123186. PMID 12077298.
- Thorpe, S.; Fize, D.; Marlot, C. (1996). "Speed of processing in the human visual system" (PDF). Nature. 381 (6582): 520–522, 1996. Bibcode:1996Natur.381..520T. doi:10.1038/381520a0. PMID 8632824. S2CID 4303570.
- Biederman, I. (1987). "Recognition-by-Components: a theory of human understanding" (PDF). Psychological Review. 94 (2): 115–147. doi:10.1037/0033-295X.94.2.115. PMID 3575582.
- Fink, M. (2004). "Object classification from a single example utilizing class relevance pseudo-metrics". NIPS. CiteSeerX 10.1.1.91.7461.
- Bart; Ullman (2005). "Cross-generalization: learning novel classes from a single example by feature replacement" (PDF). CVPR.
- Murphy, K.; Torralba, A.; Freeman, W.T. (2004). "Using the forest to see the trees: a graphical model relating features, objects, and scenes" (PDF). NIPS.
- Hoiem, D.; Efros, A.A.; Herbert, M. (2005). "Geometric context from a single image" (PDF). ICCV.
- Attias, H. (1999). "Inferring Parameters and Structure of Latent Variable Models by Variational Bayes". Proc. Of the 15th Conf. In Uncertainty in Artificial Intelligence: 21–30. arXiv:1301.6676.
- Burl, M.; Weber, M.; Perona, P. (1996). "A Probabilistic Approach to Object Recognition Using Local Photometry and Global Geometry" (PDF). Proc. European Conf. Computer Vision. Lecture Notes in Computer Science. 1407: 628–641. doi:10.1007/BFb0054769. ISBN 978-3-540-64613-6.
- Fergus, R.; Perona, P.; Zisserman, A. (2003). "Object Class Recognition by Unsupervised Scale-Invariant Learning" (PDF). Proc. Computer Vision and Pattern Recognition: 264–271.
- Weber, M.; Welling, M.; Perona, P. (2000). "Unsupervised Learning of Models for Recognition" (PDF). Proc. European Conf. Computer Vision. Lecture Notes in Computer Science. 1842: 101–108. doi:10.1007/3-540-45054-8_2. ISBN 978-3-540-67685-0.
- Kadir, T.; Brady, M. (2001). "Scale, Saliency, and Image Description". International Journal of Computer Vision. 45 (2): 83–105. doi:10.1023/A:1012460413855. S2CID 825395.