یادگیری فعال (یادگیری ماشین)

یادگیری فعال یک مورد خاص از یادگیری ماشین است که در آن یک الگوریتم یادگیری می‌تواند به‌طور تعاملی از کاربر (یا منبع اطلاعاتی دیگر) سؤال کند تا نقاط داده‌های جدید را با خروجی‌های مورد نظر علامت گذاری کند.^[۱] در ادبیات آماری، بعضی اوقات به آن طراحی آزمایشی مطلوب هم می‌گویند.^[۲] همچنین منبع اطلاعات، معلم یا دانشمند نامیده می‌شود.

موقعیت‌های وجود دارد که داده‌های برچسب گذاری نشده فراوان هستند اما برچسب گذاری به صورت دستی گران است. در همچین مواقعی، الگوریتم یادگیری می‌تواند به‌طور فعال از کاربر یا معلم برای برچسب‌ها سؤال کند. این نوع از یادگیری تحت نظارت را یادگیری فعال می‌نامند. از آنجایی که یادگیرنده مثال‌ها را انتخاب می‌کند، تعداد مثال‌ها برای یادگیری یک مفهوم گاهی می‌تواند بسیار کمتر از تعداد مورد نیاز در حالت معمولی یادگیری تحت نظارت باشد. با این رویکرد، این خطر وجود دارد که الگوریتم توسط مثال‌های غیر اطلاعاتی آسیب ببیند. پیشرفت‌های اخیر به یادگیری فعال چند برچسبی، یادگیری فعال ترکیبی و یادگیری فعال در زمینه تک‌گذری (آنلاین)، ترکیب کردن مفاهیم زمینه ماشین یادگیری (مانند تضاد و بی‌خبری) با سیاست‌های یادگیری تطبیقی و افزایشی در زمینه یادگیری ماشین آنلاین اختصاص داده شده.

تعاریف

فرض کنید که $T$ مجموعه از داده‌های مورد بررسی باشد. برای مثال، در یک مشکل مهندسی پروتئین، $T$ شامل همه پروتئین‌هایی می‌شود که برای یک فعالیت خاص و جالب شناخته می‌شوند و همچنین همه پروتئین‌های اضافه ای که ممکن است بخوایم زمانی برای ان فعالیت آزمایش کنیم.

در هر بار تکرار، $i$ , $T$ به سه زیر مجموعه شکسته و تقسیم می‌شود

$\mathbf {T} _{K,i}$ : نقاط داده‌ای که برچسب مشخص است.
$\mathbf {T} _{U,i}$ : نقاط داده‌ای که برچسب نامشخص است.
$\mathbf {T} _{C,i}$ : زیر مجموعه ای از $T U,i$ که برای برچسب گذاری انتخاب شده‌است.

اکثر تحقیقات کنونی در زمینه یادگیری فعال شامل بهترین روش برای انتخاب نقطه داده برای $T C,i$ است.

سناریوها

ترکیب پرس و جو عضویت: اینجا جایی است که یادگیرنده نمونه‌های خود را از یک توزیع طبیعی اساسی تولید می‌کند. به عنوان مثال، اگر مجموعه داده تصاویری از انسان‌ها و حیوانات باشد، یادگیرنده می‌تواند یک تصویر بریده شده از یک پا را برای معلم ارسال کند و می‌تواند سؤال کند که این متعلق به حیوان یا انسان است این مفید است مخصوصاً اگر مجموعه داده کوچک باشد.^[۳]
نمونه‌گیری مبتنی بر استخر: در این روش، نمونه‌هایی از کل مجموعه داده‌ها گرفته می‌شوند و یک نتیجه مطمئن را تعیین می‌کنند، که این سنجش میزان فهم یادگیرنده از داده‌ها است. سپس سیستم نمونه‌هایی را که کمترین اطمینان را دارند انتخاب می‌کند و از معلم برای برچسب‌ها سؤال می‌کند.
نمونه‌گیری انتخابی مبتنی بر جریان: در اینجا، هر نقطه داده برچسب گذاری نشده یک‌بار توسط دستگاه ارزیابی می‌شود که اطلاعات هر نمونه را در برابر پارامترهای پرس و جو آن بررسی می‌کند. یادگیرنده برای خودش تصمیم می‌گیرد که برای هر نقطه داده یک برچسب اختصاص دهد یا از معلم پرس و جو کند.

راهبردهای پرس و جو

نمونه‌گیری عدم قطعیت: در این چارچوب، یک یادگیرنده فعال مواردی که کمترین اطمینان از نحوه برچسب گذاری آن‌ها وجود دارد را پرس و جو می‌کند. این رویکرد اغلب برای مدل‌های یادگیری احتمالی سرراست است. به عنوان مثال، هنگام استفاده از یک مدل احتمالی برای طبقه‌بندی دودویی، نمونه‌گیری عدم قطعیت به سادگی نمونه‌ای که احتمال پسین مثبت بودن آن به ۰٫۵ نزدیک‌ترین است را پرس و جو می‌کند. برای مسائل با سه یا چند کلاس، یک نوع نمونه‌گیری عدم قطعیت عمومی تر ممکن است نمونه‌ای را که پیش‌بینی آن کمترین اطمینان را دارد پرس و جو کند:

$x_{LC}^{*}={\underset {x}{\operatorname {arg\,max} }}\,1-P_{\theta }({\hat {y}}|x)$

که در آن

{\hat {y}}={\underset {y}{\operatorname {arg\,max} }}\,P_{\theta }(y|x)

، یا برچسب کلاسی که بزرگ‌ترین احتمال پسین تحت مدل

\theta

را دارد.

پرس و جو توسط کمیته: رویکرد $\mathrm {QBC}$ شامل حفظ یک کمیته ${\mathcal {C}}=\{\theta ^{(1)},\dots ,\theta ^{(C)}\}$ از مدل‌هایی که همگی بر روی مجموعه داده‌های برچسب گذاری شده تا این لحظه ${\mathcal {L}}$ آموزش دیده‌اند، اما فرضیه‌های رقابتی را بیان می‌کنند. سپس به هر عضو کمیته اجازه داده می‌شود تا به برچسب گذاری کاندیدهای پرس و جو رأی دهد. پرس و جوی با بیشترین اطلاعات نمونه ای در نظر گرفته می‌شود که بیشتر دربارهٔ آن اختلاف نظر وجود دارد.

فرض اساسی در پشت چارچوب

\mathrm {QBC}

، به حداقل رساندن فضای نسخه است، که مجموعه فرضیه‌هایی است که با داده‌های آموزشی فعلی

{\mathcal {L}}

سازگار هستند.

برای پیاده‌سازی یک الگوریتم انتخاب

\mathrm {QBC}

، باید:

قادر به ایجاد کمیته ای از مدل‌هایی باشیم که مناطق مختلف از فضای نسخه را نشان می‌دهد.
معیاری برای سنجش میزان اختلاف نظر در بین اعضای کمیته وجود داشته باشد.

برای سنجش میزان اختلاف نظر در بین اعضای کمیته چند رویکرد پیشنهاد شده‌است. یک مورد آنتروپی رأی است:

$x_{VE}^{*}={\underset {x}{\operatorname {arg\,max} }}\,\sum _{i}{\frac {V(y_{i})}{C}}\log {\frac {V(y_{i})}{C}}$

که در آن

y_{i}

در بازه تمام برچسب‌گذاری‌های ممکن قرار دارد و

V(y_{i})

تعداد رای‌ها است که یک برچسب از پیش‌بینی‌های اعضای کمیته دریافت می‌کند، و

C

اندازه کمیته است.

تغییر مدل مورد انتظار: این چارچوب‌های یادگیری فعال، از یک رویکرد تصمیم‌گیری-تئوری استفاده می‌کند و نمونه‌ای را انتخاب می‌کند که بیشترین تغییر را در مدل فعلی ایجاد کند اگر ما برچسب آن را می‌دانستیم. یک مثال استراتژی پرس و جو در این چارچوب، رویکرد «طول گرادیان مورد انتظار» $\mathrm {EGL}$ برای کلاس‌های مدل احتمالی متمایز کننده است. استراتژی $\mathrm {EGL}$ را می‌توان برای هر مسئله یادگیری که در آن جا از آموزش مبتنی بر گرادیان استفاده می‌شود اعمال کرد. از آنجایی که مدل‌های احتمالی متمایز کننده معمولاً با استفاده از بهینه‌سازی مبتنی بر گرادیان آموزش داده می‌شوند، «تغییر» اعمال شده بر روی مدل را می‌توان با طول گرادیان آموزشی اندازه‌گیری کرد. به عبارت دیگر، یادگیرنده باید پرس و جو کند نمونه ${\mathcal {x}}$ که اگر به برچسب گذاری ${\mathcal {L}}$ اضافه شود، منجر به گرادیان آموزش جدیدی با بیشترین اندازه می‌شود. فرض کنید $\nabla {\mathcal {\ell }}_{\theta }({\mathcal {L}})$ گرادیان برای تابع هدف ${\mathcal {\ell }}$ باشد با پارامترهای مدل $\theta$ . حال $\nabla {\mathcal {\ell }}_{\theta }({\mathcal {L}}\cup \langle x,y\rangle )$ را گرادیان جدید حاصل از افزودن داده آموزشی $\langle x,y\rangle$ به ${\mathcal {L}}$ در نظر بگیرید. از آنجایی که الگوریتم پرس و جو از قبل برچسب واقعی $y$ را نمی‌شناسد، ما باید درعوض طول را به عنوان امید ریاضی از برچسب گذاری‌های ممکن محاسبه کنیم:

$x_{EGL}^{*}={\underset {y}{\operatorname {arg\,max} }}\,\sum _{i}P_{\theta }(y_{i}|x)\|\nabla {\mathcal {\ell }}_{\theta }({\mathcal {L}}\cup \langle x,y\rangle )\|$

که در آن

\|.\|

نرم اقلیدسی هر بردار گرادیان حاصل است. توجه داشته باشید که در زمان پرس و جو،

\nabla {\mathcal {\ell }}_{\theta }({\mathcal {L}})

باید نزدیک به صفر باشد زیرا

{\mathcal {\ell }}

در دور قبلی آموزش همگرا شده‌است؛ بنابراین، می‌توانیم

\nabla {\mathcal {\ell }}_{\theta }({\mathcal {L}}\cup \langle x,y\rangle )\approx \nabla {\mathcal {\ell }}_{\theta }(\langle x,y\rangle )

را تقریب کنیم برای کارایی محاسباتی، زیرا نمونه‌های آموزشی معمولاً مستقل فرض می‌شود.

منابع

↑ Settles, Burr (2010). "Active Learning Literature Survey" (PDF). Computer Sciences Technical Report 1648. University of Wisconsin–Madison. Retrieved 2014-11-18. {{cite journal}}: Cite journal requires |journal= (help)
↑ Olsson, Fredrik (April 2009). "A literature survey of active machine learning in the context of natural language processing". SICS Technical Report T2009:06. {{cite journal}}: Cite journal requires |journal= (help)
↑ Wang, Liantao; Hu, Xuelei; Yuan, Bo; Lu, Jianfeng (2015-01-05). "Active learning via query synthesis and nearest neighbour search" (PDF). Neurocomputing. 147: 426–434. doi:10.1016/j.neucom.2014.06.042.

[settles-1] Settles, Burr (2010). "Active Learning Literature Survey" (PDF). Computer Sciences Technical Report 1648. University of Wisconsin–Madison. Retrieved 2014-11-18. {{cite journal}}: Cite journal requires |journal= (help)

[olsson-2] Olsson, Fredrik (April 2009). "A literature survey of active machine learning in the context of natural language processing". SICS Technical Report T2009:06. {{cite journal}}: Cite journal requires |journal= (help)

[3] Wang, Liantao; Hu, Xuelei; Yuan, Bo; Lu, Jianfeng (2015-01-05). "Active learning via query synthesis and nearest neighbour search" (PDF). Neurocomputing. 147: 426–434. doi:10.1016/j.neucom.2014.06.042.

[۱]

[۲]

[۳]