دسته‌بندی با چند برچسب

دسته‌بندی با چند برچسب (به انگلیسی: Multi-label classification) متفاوت از رده‌بندی چندگانه است. در یادگیری ماشینی، برای دسته‌بندی چندگانه هدف ما این است که از بین برچسب‌های موجود برای هر نمونه دقیقا یک برچسب را انتخاب کنیم و به آن نمونه نسبت دهیم. در حالی که در دسته‌بندی با چند برچسب ممکن است به هر نمونه بیش از یک برچسب نسبت داده شود و حالت کلی تری از رده‌بندی چندگانه است.

به بیان بهتر، در دسته‌بندی با چند برچسب، با دادن ورودی x به مدل، خروجی y را از آن دریافت می‌کنیم که y یک بردار از مقادیر 0 و 1 است که مشخص می‌کند ورودی به کدام دسته‌ها تعلق دارد.

روش‌های تبدیل مسئله به مسائل دیگر[ویرایش]

تبدیل به مسئله دسته‌بندی دوگانه:این روش را ارتباط دوگانه ^[۱] می‌نامند. در این روش، برای هر دسته یک دسته‌بندی کننده دوگانه آموزش می‌دهیم که برای یک نمونه عضویت آن در آن دسته را پیش بینی کند سپس در بردار خروجی y به ازای دسته‌هایی که جواب دسته‌بندی کننده آنها مثبت بوده، 1 می‌گذاریم.
تبدیل به مسائل دسته‌بندی چندگانه: در این روش به ازای هر حالت موجود از ترکیب برچسب‌ها در مجموعه داده آموزش، یک دسته در نظر می‌گیریم. برای مثال فرض کنید سه برچسب الف، ب و پ داریم. به ازای هر یک از حالات [000]، [001]، [010]، [011]، [100]، [101]، [110]، [111] یک دسته در نظر ‌می‌گیریم. برای نمونه، [010] نشان می‌دهد نمونه به دسته‌های الف و پ تعلق ندارد و به دسته ب تعلق دارد. اکنون روی این دسته‌های جدید، دسته‌بندی چندگانه انجام می‌دهیم. ^[۲]

معیارهای ارزیابی[ویرایش]

معیارهای ارزیابی روش‌های دسته‌بندی با چند برچسب متفاوت از روش‌های دسته‌بندی چندگانه است زیرا ذات و اهداف این دو مسئله با هم تفاوت دارد. ارزیابی‌های رایج برای این دسته از مسائل به شرح زیر است.

هزینه Hamming: در این روش نسبت برچسب‌های اشتباه به کل برچسب‌ها در نظر گرفته می‌شود:

${\frac {1}{N\cdot |L|}}\sum _{i=1}^{|N|}\sum _{j=1}^{|L|}\operatorname {xor} (y_{i,j},z_{i,j})$

که در این فرمول، $y_{i,j}$ مقدار درست (هدف) و $z_{i,j}$ مقدار پیش‌بینی شده است. $N$ تعداد کل نمونه‌ها و $L$ مجموعه برچسب‌ها است.

اندیس ژاکار که در واقع نسبت برچسب‌هایی که به درستی پیش‌بینی شدند به اجتماع کل برچسب های واقعی و پیش بینی شده است.

${\frac {|T\cap P|}{|T\cup P|}}$ که $T$ برچسب‌های واقعی و $P$ برچسب‌های پیش‌بینی شده است.

تطابق دقیق که سخت‌گیرانه‌ترین روش است و درصد نمونه‌هایی را که همه برچسب‌هایشان به درستی دسته‌بندی شده مشخص می‌کند.
دقت و بازیابی و امتیاز اف ۱ که دقت ${\frac {|T\cap P|}{|P|}}$ ، بازیابی ${\frac {|T\cap P|}{|T|}}$ ، و امتیاز اف ۱، میانگین همساز آنهاست.

منابع[ویرایش]

↑ Jesse Read, Bernhard Pfahringer, Geoff Holmes, Eibe Frank. Classifier Chains for Multi-label Classification. Machine Learning Journal. Springer. Vol. 85(3), (2011).
↑ Spolaôr, Newton; Cherman, Everton Alvares; Monard, Maria Carolina; Lee, Huei Diana (March 2013). "A Comparison of Multi-label Feature Selection Methods using the Problem Transformation Approach". Electronic Notes in Theoretical Computer Science. 292: 135–151. doi:10.1016/j.entcs.2013.02.010. ISSN 1571-0661.

[classifierchains-1] Jesse Read, Bernhard Pfahringer, Geoff Holmes, Eibe Frank. Classifier Chains for Multi-label Classification. Machine Learning Journal. Springer. Vol. 85(3), (2011).

[2] Spolaôr, Newton; Cherman, Everton Alvares; Monard, Maria Carolina; Lee, Huei Diana (March 2013). "A Comparison of Multi-label Feature Selection Methods using the Problem Transformation Approach". Electronic Notes in Theoretical Computer Science. 292: 135–151. doi:10.1016/j.entcs.2013.02.010. ISSN 1571-0661.

[۱]

[۲]