یادگیری چندوجهی

یادگیری چندوجهی (به انگلیسی: Multimodal Learning) یک زمینه تحقیقاتی چند رشته‌ای پر جنب و جوش است که هدف آن طراحی عوامل کامپیوتری (به انگلیسی: Computer Agents) با قابلیت‌های هوشمندانه مانند درک، استدلال و یادگیری از طریق یکپارچه‌سازی روش‌های ارتباطی متعدد، از جمله پیام‌های زبانی، صوتی، بصری، لمسی و فیزیولوژیکی است.

یادگیری چندوجهی سعی بر مدل‌سازی ترکیبی از روش‌های مختلف داده دارد. این مسئله‌ها اغلب در برنامه‌های کاربردی دنیای واقعی به وجود می‌آیند. نمونه‌ای از داده‌های چندوجهی، داده‌هایی است که متن (معمولاً به صورت بردارهای شمارش کلمات گسسته نشان داده می‌شوند) را با داده‌های تصویربرداری که شامل شدت و برچسب‌های حاشیه‌نویسی پیکسل هستند ترکیب می‌کند. از آنجایی که این روش‌ها ویژگی‌های آماری متفاوتی دارند، ترکیب آن‌ها در نگاه اول بی‌اهمیت است، به همین دلیل است که استراتژی‌ها و الگوریتم‌های مدل‌سازی تخصصی مورد نیاز است.

انگیزه[ویرایش]

تجربه ما از جهان چندوجهی است - ما اشیاء را می بینیم، صداها را می شنویم، بافت را احساس می کنیم، بوها را استشمام می کنیم و طعم ها را می چشیم. برای اینکه هوش مصنوعی در درک دنیای اطراف ما پیشرفت کند، باید بتواند چنین سیگنال های چندوجهی را با هم تفسیر کند. به عنوان مثال، تصاویر معمولاً با برچسب ها و توضیحات متن همراه هستند. متون حاوی تصاویری برای بیان واضح تر ایده اصلی مقاله هستند. روش های مختلف با ویژگی های آماری بسیار متفاوت مشخص می شوند.^[۱]

مدل تک‌وجهی و چندوجهی[ویرایش]

همه مدل‌های سنتی هوش مصنوعی تک‌وجهی هستند، زیرا برای انجام یک کار واحد توسعه یافته و مورد نیاز هستند. به عنوان مثال، یک سیستم تشخیص چهره با یک ورودی ارائه می شود، مانند تصویری از یک شخص که آن را تجزیه و تحلیل می کند و با سایر تصاویر مقایسه می کند تا مطابقت پیدا کند.

یک پزشک تا زمانی که تمام داده های موجود را تجزیه و تحلیل نکند، تشخیص کامل نمی دهد، مانند گزارش های پزشکی، علائم بیمار، سابقه بیمار، و غیره.

داده‌های چندوجهی[ویرایش]

مدل‌ها و الگوریتم‌های زیادی برای بازیابی و طبقه‌بندی نوع خاصی از داده‌ها پیاده‌سازی شده‌اند، به عنوان مثال، تصویر یا متن (جایی که انسان‌هایی که با ماشین‌ها تعامل دارند می‌توانند تصاویر را به شکلی از عکس و متن استخراج کنند که می‌تواند هر پیامی باشد و غیره). با این حال، داده‌ها معمولاً با روش‌های مختلفی ارائه می‌شوند (درجهی است که اجزای یک سیستم ممکن است جدا یا ترکیب شوند) که اطلاعات متفاوتی را حمل می‌کنند. برای مثال، نوشتن شرح تصویر برای انتقال اطلاعاتی که در خود تصویر ارائه نشده است، بسیار رایج است. به طور مشابه، گاهی اوقات استفاده از یک تصویر برای توصیف اطلاعاتی که ممکن است از متون واضح نباشد، ساده‌تر است. در نتیجه، اگر کلمات متفاوتی در تصاویر مشابه ظاهر شوند، احتمالاً این کلمات یک چیز را توصیف می کنند. برعکس، اگر از کلمه ای برای توصیف تصاویر به ظاهر متفاوت استفاده شود، آنگاه این تصاویر ممکن است همان شی را نشان دهند. بنابراین، در مواردی که با داده‌های چندوجهی سروکار دارند، استفاده از مدلی که قادر به نمایش مشترک اطلاعات باشد، مهم است که مدل بتواند ساختار همبستگی بین روش‌های مختلف را به تصویر بکشد. علاوه بر این، همچنین باید بتواند مدالیته‌های از دست رفته را با توجه به موارد مشاهده شده بازیابی کند (به عنوان مثال پیش بینی اشیا در تصویر بر اساس توضیحات متن).

مزایای یادگیری چندوجهی^[۲][ویرایش]

بهبود قابلیت: یادگیری چندوجهی قابلیت‌های یک مدل را گسترش می‌دهد. یک سیستم هوش مصنوعی چندوجهی، انواع مختلفی از داده‌ها را تجزیه و تحلیل می‌کند و به آن درک وسیع تری از کار می‌دهد. این ویژگی مدل را شبیه انسان می‌کند. برای مثال، یک دستیار هوشمند که از طریق یادگیری چندوجهی آموزش دیده است، می‌تواند از داده‌های تصویری، داده‌های صوتی، اطلاعات قیمت‌گذاری، تاریخچه خرید و حتی داده‌های ویدیویی برای ارائه پیشنهادات شخصی‌سازی شده‌تر محصول استفاده کند.
بهبود دقت: یادگیری چندوجهی همچنین می تواند دقت یک مدل هوش مصنوعی را بهبود بخشد. به عنوان مثال، تنها راه تشخیص سیب تنها از طریق تصویر یا دید آنها نیست، زیرا آنها می توانند آن را از طریق صدای گاز گرفتن یا بوی آن نیز شناسایی کنند. به طور مشابه، وقتی به یک مدل هوش مصنوعی تصویری از یک سگ نشان داده می‌شود، و آن را با داده‌های صوتی پارس کردن سگ ترکیب می‌کند، می‌تواند دوباره به خود اطمینان دهد که این تصویر در واقع یک سگ است.

چالش‌ها^[۳][ویرایش]

توانایی پردازش همزمان داده های چندوجهی برای پیشرفت در هوش مصنوعی حیاتی است. به عنوان مثال، ما را قادر می سازد به یک شی با چندین زبان مانند بصری، متن یا گفتار اشاره کنیم. با این حال، این مستلزم درک جامع از روش‌ها و روابط مختلف بین آنها است. ناهمگونی داده ها، چالش های منحصر به فردی را برای محققان محاسباتی به همراه دارد. برای رسیدن به این هدف، باید به چند چالش کلیدی بپردازیم:

بازنمایی: اولین چالش اساسی این است که یاد بگیریم چگونه داده‌های چندوجهی را به گونه‌ای نمایش دهیم و خلاصه کنیم که از مکمل بودن و افزونگی روش های متعدد استفاده کند. ناهمگونی داده‌های چندوجهی، ساخت چنین نمایش هایی را چالش برانگیز می کند. به عنوان مثال، زبان اغلب نمادین است در حالی که شیوه های صوتی و تصویری به عنوان سیگنال نمایش داده می شوند.
ترجمه: چالش دوم به چگونگی ترجمه (نقشه) داده‌ها از یک روش به روش دیگر می پردازد. نه تنها داده‌ها ناهمگن هستند، بلکه رابطه بین روش‌ها اغلب با پایان باز یا ذهنی است. برای مثال، تعدادی روش صحیح برای توصیف یک تصویر وجود دارد و ممکن است یک ترجمه کامل وجود نداشته باشد.
تراز: چالش سوم، شناسایی روابط مستقیم بین عناصر (فرعی) از دو یا چند روش مختلف است. به عنوان مثال، ممکن است بخواهیم مراحل یک دستور غذا را با ویدیویی که ظرف در حال درست شدن را نشان می دهد، تراز کنیم. برای مقابله با این چالش، باید شباهت بین روش‌های مختلف را اندازه‌گیری کنیم و با وابستگی‌ها و ابهام‌های احتمالی درازمدت مقابله کنیم.
ادغام: چالش چهارم، پیوستن اطلاعات از دو یا چند روش برای انجام یک پیش‌بینی است. به عنوان مثال، برای تشخیص گفتار سمعی و بصری، توصیف بصری حرکت لب با سیگنال گفتار ترکیب می شود تا کلمه‌های گفتاری را پیش بینی کند. اطلاعاتی که از مدالیته‌های مختلف می‌آیند ممکن است دارای قدرت پیش‌بینی و توپولوژی نویز متفاوتی باشند، و احتمالاً داده‌های گمشده در حداقل یکی از مدالیته‌ها وجود دارد.
یادگیری مشترک: چالش پنجم انتقال دانش بین روش‌ها، نمایش آنها و مدل‌های پیش‌بینی‌کننده آنهاست. این با الگوریتم‌های هم‌آموزشی، زمینه‌سازی مفهومی است. یادگیری مشترک بررسی می‌کند که چگونه یادگیری دانش از یک روش می‌تواند به یک مدل محاسباتی آموزش‌دیده بر روی یک روش متفاوت کمک کند. این چالش به ویژه زمانی مرتبط است که یکی از روش‌ها منابع محدودی داشته باشد (به عنوان مثال، داده‌های حاشیه نویسی).

منابع[ویرایش]

↑ Baltrušaitis, Tadas; Ahuja, Chaitanya; Morency, Louis-Philippe (2017-08-01). "Multimodal Machine Learning: A Survey and Taxonomy". arXiv:1705.09406 [cs].
↑ «Multimodal Learning: Benefits & 3 Real-World Examples in 2023». research.aimultiple.com (به انگلیسی). دریافت‌شده در ۲۰۲۲-۱۲-۳۰.
↑ Liang, Paul Pu; Zadeh, Amir; Morency, Louis-Philippe (2022-09-07). "Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions". arXiv:2209.03430 [cs].

[1] Baltrušaitis, Tadas; Ahuja, Chaitanya; Morency, Louis-Philippe (2017-08-01). "Multimodal Machine Learning: A Survey and Taxonomy". arXiv:1705.09406 [cs].

[2] «Multimodal Learning: Benefits & 3 Real-World Examples in 2023». research.aimultiple.com (به انگلیسی). دریافت‌شده در ۲۰۲۲-۱۲-۳۰.

[3] Liang, Paul Pu; Zadeh, Amir; Morency, Louis-Philippe (2022-09-07). "Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions". arXiv:2209.03430 [cs].

[۱]

[۲]

[۳]