یادگیری چندوجهی
یادگیری چندوجهی (به انگلیسی: Multimodal Learning) یک زمینه تحقیقاتی چند رشتهای پر جنب و جوش است که هدف آن طراحی عوامل کامپیوتری (به انگلیسی: Computer Agents) با قابلیتهای هوشمندانه مانند درک، استدلال و یادگیری از طریق یکپارچهسازی روشهای ارتباطی متعدد، از جمله پیامهای زبانی، صوتی، بصری، لمسی و فیزیولوژیکی است.
یادگیری چندوجهی سعی بر مدلسازی ترکیبی از روشهای مختلف داده دارد. این مسئلهها اغلب در برنامههای کاربردی دنیای واقعی به وجود میآیند. نمونهای از دادههای چندوجهی، دادههایی است که متن (معمولاً به صورت بردارهای شمارش کلمات گسسته نشان داده میشوند) را با دادههای تصویربرداری که شامل شدت و برچسبهای حاشیهنویسی پیکسل هستند ترکیب میکند. از آنجایی که این روشها ویژگیهای آماری متفاوتی دارند، ترکیب آنها در نگاه اول بیاهمیت است، به همین دلیل است که استراتژیها و الگوریتمهای مدلسازی تخصصی مورد نیاز است.
انگیزه
[ویرایش]تجربه ما از جهان چندوجهی است - ما اشیاء را می بینیم، صداها را می شنویم، بافت را احساس می کنیم، بوها را استشمام می کنیم و طعم ها را می چشیم. برای اینکه هوش مصنوعی در درک دنیای اطراف ما پیشرفت کند، باید بتواند چنین سیگنال های چندوجهی را با هم تفسیر کند. به عنوان مثال، تصاویر معمولاً با برچسب ها و توضیحات متن همراه هستند. متون حاوی تصاویری برای بیان واضح تر ایده اصلی مقاله هستند. روش های مختلف با ویژگی های آماری بسیار متفاوت مشخص می شوند.[۱]
مدل تکوجهی و چندوجهی
[ویرایش]همه مدلهای سنتی هوش مصنوعی تکوجهی هستند، زیرا برای انجام یک کار واحد توسعه یافته و مورد نیاز هستند. به عنوان مثال، یک سیستم تشخیص چهره با یک ورودی ارائه می شود، مانند تصویری از یک شخص که آن را تجزیه و تحلیل می کند و با سایر تصاویر مقایسه می کند تا مطابقت پیدا کند.
یک پزشک تا زمانی که تمام داده های موجود را تجزیه و تحلیل نکند، تشخیص کامل نمی دهد، مانند گزارش های پزشکی، علائم بیمار، سابقه بیمار، و غیره.
دادههای چندوجهی
[ویرایش]مدلها و الگوریتمهای زیادی برای بازیابی و طبقهبندی نوع خاصی از دادهها پیادهسازی شدهاند، به عنوان مثال، تصویر یا متن (جایی که انسانهایی که با ماشینها تعامل دارند میتوانند تصاویر را به شکلی از عکس و متن استخراج کنند که میتواند هر پیامی باشد و غیره). با این حال، دادهها معمولاً با روشهای مختلفی ارائه میشوند (درجهی است که اجزای یک سیستم ممکن است جدا یا ترکیب شوند) که اطلاعات متفاوتی را حمل میکنند. برای مثال، نوشتن شرح تصویر برای انتقال اطلاعاتی که در خود تصویر ارائه نشده است، بسیار رایج است. به طور مشابه، گاهی اوقات استفاده از یک تصویر برای توصیف اطلاعاتی که ممکن است از متون واضح نباشد، سادهتر است. در نتیجه، اگر کلمات متفاوتی در تصاویر مشابه ظاهر شوند، احتمالاً این کلمات یک چیز را توصیف می کنند. برعکس، اگر از کلمه ای برای توصیف تصاویر به ظاهر متفاوت استفاده شود، آنگاه این تصاویر ممکن است همان شی را نشان دهند. بنابراین، در مواردی که با دادههای چندوجهی سروکار دارند، استفاده از مدلی که قادر به نمایش مشترک اطلاعات باشد، مهم است که مدل بتواند ساختار همبستگی بین روشهای مختلف را به تصویر بکشد. علاوه بر این، همچنین باید بتواند مدالیتههای از دست رفته را با توجه به موارد مشاهده شده بازیابی کند (به عنوان مثال پیش بینی اشیا در تصویر بر اساس توضیحات متن).
- بهبود قابلیت: یادگیری چندوجهی قابلیتهای یک مدل را گسترش میدهد. یک سیستم هوش مصنوعی چندوجهی، انواع مختلفی از دادهها را تجزیه و تحلیل میکند و به آن درک وسیع تری از کار میدهد. این ویژگی مدل را شبیه انسان میکند. برای مثال، یک دستیار هوشمند که از طریق یادگیری چندوجهی آموزش دیده است، میتواند از دادههای تصویری، دادههای صوتی، اطلاعات قیمتگذاری، تاریخچه خرید و حتی دادههای ویدیویی برای ارائه پیشنهادات شخصیسازی شدهتر محصول استفاده کند.
- بهبود دقت: یادگیری چندوجهی همچنین می تواند دقت یک مدل هوش مصنوعی را بهبود بخشد. به عنوان مثال، تنها راه تشخیص سیب تنها از طریق تصویر یا دید آنها نیست، زیرا آنها می توانند آن را از طریق صدای گاز گرفتن یا بوی آن نیز شناسایی کنند. به طور مشابه، وقتی به یک مدل هوش مصنوعی تصویری از یک سگ نشان داده میشود، و آن را با دادههای صوتی پارس کردن سگ ترکیب میکند، میتواند دوباره به خود اطمینان دهد که این تصویر در واقع یک سگ است.
توانایی پردازش همزمان داده های چندوجهی برای پیشرفت در هوش مصنوعی حیاتی است. به عنوان مثال، ما را قادر می سازد به یک شی با چندین زبان مانند بصری، متن یا گفتار اشاره کنیم. با این حال، این مستلزم درک جامع از روشها و روابط مختلف بین آنها است. ناهمگونی داده ها، چالش های منحصر به فردی را برای محققان محاسباتی به همراه دارد. برای رسیدن به این هدف، باید به چند چالش کلیدی بپردازیم:
- بازنمایی: اولین چالش اساسی این است که یاد بگیریم چگونه دادههای چندوجهی را به گونهای نمایش دهیم و خلاصه کنیم که از مکمل بودن و افزونگی روش های متعدد استفاده کند. ناهمگونی دادههای چندوجهی، ساخت چنین نمایش هایی را چالش برانگیز می کند. به عنوان مثال، زبان اغلب نمادین است در حالی که شیوه های صوتی و تصویری به عنوان سیگنال نمایش داده می شوند.
- ترجمه: چالش دوم به چگونگی ترجمه (نقشه) دادهها از یک روش به روش دیگر می پردازد. نه تنها دادهها ناهمگن هستند، بلکه رابطه بین روشها اغلب با پایان باز یا ذهنی است. برای مثال، تعدادی روش صحیح برای توصیف یک تصویر وجود دارد و ممکن است یک ترجمه کامل وجود نداشته باشد.
- تراز: چالش سوم، شناسایی روابط مستقیم بین عناصر (فرعی) از دو یا چند روش مختلف است. به عنوان مثال، ممکن است بخواهیم مراحل یک دستور غذا را با ویدیویی که ظرف در حال درست شدن را نشان می دهد، تراز کنیم. برای مقابله با این چالش، باید شباهت بین روشهای مختلف را اندازهگیری کنیم و با وابستگیها و ابهامهای احتمالی درازمدت مقابله کنیم.
- ادغام: چالش چهارم، پیوستن اطلاعات از دو یا چند روش برای انجام یک پیشبینی است. به عنوان مثال، برای تشخیص گفتار سمعی و بصری، توصیف بصری حرکت لب با سیگنال گفتار ترکیب می شود تا کلمههای گفتاری را پیش بینی کند. اطلاعاتی که از مدالیتههای مختلف میآیند ممکن است دارای قدرت پیشبینی و توپولوژی نویز متفاوتی باشند، و احتمالاً دادههای گمشده در حداقل یکی از مدالیتهها وجود دارد.
- یادگیری مشترک: چالش پنجم انتقال دانش بین روشها، نمایش آنها و مدلهای پیشبینیکننده آنهاست. این با الگوریتمهای همآموزشی، زمینهسازی مفهومی است. یادگیری مشترک بررسی میکند که چگونه یادگیری دانش از یک روش میتواند به یک مدل محاسباتی آموزشدیده بر روی یک روش متفاوت کمک کند. این چالش به ویژه زمانی مرتبط است که یکی از روشها منابع محدودی داشته باشد (به عنوان مثال، دادههای حاشیه نویسی).
منابع
[ویرایش]- ↑ Baltrušaitis, Tadas; Ahuja, Chaitanya; Morency, Louis-Philippe (2017-08-01). "Multimodal Machine Learning: A Survey and Taxonomy". arXiv:1705.09406 [cs].
- ↑ «Multimodal Learning: Benefits & 3 Real-World Examples in 2023». research.aimultiple.com (به انگلیسی). دریافتشده در ۲۰۲۲-۱۲-۳۰.
- ↑ Liang, Paul Pu; Zadeh, Amir; Morency, Louis-Philippe (2022-09-07). "Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions". arXiv:2209.03430 [cs].