تحلیل احساسات چند وجهی

از ویکی‌پدیا، دانشنامهٔ آزاد

تحلیل احساسات چند وجهی بعد جدیدی از تحلیل احساسات مبتنی بر متن است، که فراتر از تجزیه و تحلیل متون می‌رود و شامل بررسی سایر ابعاد مانند داده‌های صوتی و تصویری نیز می‌شود.[۱] تحلیل احساسات چندوجهی، می‌تواند دو وجهی باشد که به معنی ترکیب دو مدالیته مختلف است، یا سه وجهی باشد که دربرگیرنده سه مدالیته است.[۲] با وجود حجم گسترده داده‌های رسانه‌های اجتماعی که به شکل‌های مختلف از جمله ویدئو و تصویر به صورت آنلاین در دسترس هستند، تکنیک متعارف تحلیل احساسات مبتنی بر متن به مدل‌های پیچیده‌تر تحلیل احساسات چندوجهی تبدیل شده‌است.[۳] این تکنولوژی می‌تواند در توسعه دستیاران مجازی،[۴] تجزیه و تحلیل نقد فیلم‌های یوتیوب،[۵] تجزیه و تحلیل ویدیوهای خبری، و تشخیص احساسات مانند نظارت بر افسردگی و زمینه‌های دیگر کاربرد داشته باشد.

مشابه تحلیل احساسات سنتی، یکی از اساسی‌ترین وظایف در تحلیل احساسات چندوجهی ، طبقه‌بندی احساسات است که احساسات مختلف را به دسته‌هایی مانند مثبت، منفی یا خنثی دسته‌بندی می‌کند. پیچیدگی تجزیه و تحلیل ویژگی‌های متنی، صوتی و بصری برای انجام چنین کاری مستلزم استفاده از تکنیک‌های ترکیبی مختلف، مانند سطح ویژگی، سطح تصمیم، و ترکیب هایبرید است.[۳] عملکرد این تکنیک‌های ادغامی و الگوریتم‌های طبقه‌بندی، تحت‌تاثیر نوع ویژگی‌های متنی، صوتی و بصری به کار رفته در این بررسی است.[۶]

ویژگی‌ها[ویرایش]

مهندسی ویژگی، که شامل انتخاب ویژگی‌هایی است که به الگوریتم‌های یادگیری ماشین داده می‌شوند، نقش کلیدی در عملکرد طبقه‌بندی احساسات بازی می‌کند.[۶] در تحلیل احساسات چندوجهی، ترکیبی از ویژگی‌های متنی، صوتی و بصری مختلف به کار گرفته می‌شود.[۳]

ویژگی‌های متنی[ویرایش]

مشابه تجزیه و تحلیل احساسات مرسوم مبتنی بر متن، برخی از متداول‌ترین ویژگی‌های متنی مورد استفاده در تحلیل احساسات چندوجهی، تک-گرم‌ها و ان-گرم‌ها هستند که اساساً دنباله‌ای از کلمات در یک سند متنی هستند.[۷] این ویژگی‌ها با استفاده از مدل بسته کلمات یا مدل بسته مفاهیم اعمال می‌شوند که در آن کلمات یا مفاهیم به صورت بردارهایی در فضایی مناسب نمایش داده می‌شوند.[۸][۹]

ویژگیهای صوتی[ویرایش]

عواطف و احساسات دارای خصوصیات آوایی و عروضی متفاوتی در ویژگی‌های صوتی هستند.[۱۰] برخی از مهم‌ترین ویژگی‌های صوتی مورد استفاده در تجزیه و تحلیل احساسات چندوجهی عبارتند از ضرایب فرکانس مل (MFCC)، مرکز طیفی، شار طیفی، هیستوگرام ضربان، مجموع ضربان، قوی‌ترین ضرب، مدت زمان مکث، و گام.[۳] OpenSMILE و Praat ابزارهای منبع باز پرطرفدار برای استخراج این ویژگی‌های صوتی هستند.

ویژگی‌های بصری[ویرایش]

یکی از مزایای اصلی تجزیه و تحلیل ویدئوها در مقایسه با تحلیل صرف متن، غنی بودن نشانه‌های احساسات در داده‌های بصری است.[۱۱] ویژگی‌های بصری شامل حالات چهره است که در شناسایی احساسات و عواطف از اهمیت بالایی برخوردار است، زیرا کانال اصلی نمایش حالات ذهنی فعلی فرد است.[۳] به‌طور خاص، لبخند به عنوان یکی از واضح‌ترین نشانه‌های بصری در تحلیل احساسات چندوجهی در نظر گرفته می‌شود.[۸] OpenFace یک جعبه ابزار منبع باز برای تجزیه و تحلیل چهره است که برای استخراج و درک چنین ویژگی‌های بصری در دسترس است.[۱۲]

تکنیک‌های ترکیبی[ویرایش]

برخلاف تحلیل احساسات سنتی مبتنی بر متن، در تحلیل احساسات چندوجهی تحت یک فرایند ادغام، داده‌های روش‌های مختلف (متنی، صوتی یا بصری) با هم ترکیب و تجزیه و تحلیل می‌شوند.[۳] رویکردهای موجود برای ادغام داده‌ها در تحلیل احساسات چندوجهی را می‌توان به سه دسته اصلی گروه‌بندی کرد: سطح ویژگی، سطح تصمیم، و ترکیب هایبرید. عملکرد طبقه‌بندی احساسات بستگی به نوع تکنیک ترکیبی مورد استفاده دارد.[۳]

ترکیب در سطح ویژگی[ویرایش]

ترکیب در سطح ویژگی (که گاهی اوقات به عنوان ادغام اولیه شناخته می‌شود) همه ویژگی‌ها را از هر مدالیته (متنی، صوتی یا بصری) جمع‌آوری می‌کند و همه آنها را در یک بردار ویژگی واحد قرار می‌دهد که در نهایت به یک الگوریتم طبقه‌بندی وارد می‌شود.[۱۳] یکی از مشکلات در اجرای این تکنیک، ادغام ویژگی‌های ناهمگن است.[۳]

ترکیب در سطح تصمیم[ویرایش]

ترکیب در سطح تصمیم (که گاهی اوقات به عنوان ادغام ثانویه شناخته می‌شود)، داده‌های هر مدالیته (متنی، صوتی یا بصری) را به‌طور مستقل به الگوریتم طبقه‌بندی مختص به خود می‌دهد و با ادغام هر نتیجه در یک بردار تصمیم واحد، نتایج طبقه‌بندی احساسات نهایی را به دست می‌آورد.[۱۳] یکی از مزایای این تکنیک ترکیبی، این است که نیاز به ترکیب داده‌های ناهمگن را از بین می‌برد و هر مدالیته می‌تواند از مناسب‌ترین الگوریتم طبقه‌بندی خود استفاده کند.[۳]

ترکیب هیبریدی[ویرایش]

ترکیب هیبریدی، ترکیبی از تکنیک‌های ترکیب در سطح ویژگی و سطح تصمیم است که از اطلاعات تکمیلی هر دو روش در طول فرایند طبقه‌بندی استفاده می‌کند.[۵] این فرایند معمولاً شامل یک روش دو مرحله‌ای است که در مرحله اول، ابتدا بین دوتا از مدالیته‌ها، روش ترکیب در سطح ویژگی پیاده‌سازی می‌شود و سپس در مرحله دوم برای ادغام کردن نتیجه این ترکیب با مدالیته باقیمانده، بین نتایج این فرایند و مدالیتهٔ باقیمانده، عملیات ترکیب در سطح تصمیم اعمال می‌شود.[۱۴][۱۵]

کاربردها[ویرایش]

مشابه تجزیه و تحلیل احساسات مبتنی بر متن، تجزیه و تحلیل احساسات چندوجهی را می‌توان در توسعه سیستم‌های توصیه‌گر در اشکال مختلف مانند تجزیه و تحلیل ویدیوهای تولید شده توسط کاربران در خصوص نقد فیلم[۵] و نقد کلی محصولات،[۱۶] به منظور پیش‌بینی احساسات مشتریان و متعاقباً توصیه محصولات یا خدمات، استفاده کرد.[۱۷] تجزیه و تحلیل احساسات چندوجهی همچنین نقش مهمی در پیشرفت دستیاران مجازی از طریق استفاده از پردازش زبان طبیعی (NLP) و تکنیک‌های یادگیری ماشین ایفا می‌کند.[۴] در حوزه بهداشت و درمان، تجزیه و تحلیل احساسات چندوجهی می‌تواند برای تشخیص برخی شرایط پزشکی مانند استرس، اضطراب یا افسردگی استفاده شود. تجزیه و تحلیل احساسات چندوجهی را می‌توان در درک احساسات موجود در برنامه‌های خبری ویدیویی نیز به کار برد، از آنجایی که خبرنگاران معمولاً به‌طور واضح احساسات خود را نشان نمی‌دهند و بیشتر خنثی هستند، به عنوان یک حوزه پیچیده و چالش‌برانگیز در نظر گرفته می‌شود.

منابع[ویرایش]

  1. Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (September 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.[پیوند مرده]
  2. Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems. 1: 137–159. doi:10.21307/ijssis-2017-283. Archived from the original (PDF) on 15 June 2018. Retrieved 3 January 2022.
  3. ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ ۳٫۴ ۳٫۵ ۳٫۶ ۳٫۷ ۳٫۸ Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (September 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003. {{cite journal}}: |hdl-access= requires |hdl= (help)
  4. ۴٫۰ ۴٫۱ "Google AI to make phone calls for you". BBC News. 8 May 2018. Retrieved 12 June 2018.
  5. ۵٫۰ ۵٫۱ ۵٫۲ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (May 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context". IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34.
  6. ۶٫۰ ۶٫۱ Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.
  7. Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 May 2017). "Current State of Text Sentiment Analysis from Opinion to Emotion Mining". ACM Computing Surveys. 50 (2): 1–33. doi:10.1145/3057270.
  8. ۸٫۰ ۸٫۱ Perez Rosas, Veronica; Mihalcea, Rada; Morency, Louis-Philippe (May 2013). "Multimodal Sentiment Analysis of Spanish Online Videos". IEEE Intelligent Systems. 28 (3): 38–45. doi:10.1109/MIS.2013.9.
  9. Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (March 2015). "Towards an intelligent framework for multimodal affective data analysis". Neural Networks. 63: 104–116. doi:10.1016/j.neunet.2014.10.005. PMID 25523041. {{cite journal}}: |hdl-access= requires |hdl= (help)
  10. Chung-Hsien Wu; Wei-Bin Liang (January 2011). "Emotion Recognition of Affective Speech Based on Multiple Classifiers Using Acoustic-Prosodic Information and Semantic Labels". IEEE Transactions on Affective Computing. 2 (1): 10–21. doi:10.1109/T-AFFC.2010.16.
  11. Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Context-Dependent Sentiment Analysis in User-Generated Videos". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers): 873–883. doi:10.18653/v1/p17-1081.
  12. "OpenFace: An open source facial behavior analysis toolkit - IEEE Conference Publication". doi:10.1109/WACV.2016.7477553. {{cite journal}}: Cite journal requires |journal= (help)
  13. ۱۳٫۰ ۱۳٫۱ Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (January 2016). "Fusing audio, visual and textual clues for sentiment analysis from multimodal content". Neurocomputing. 174: 50–59. doi:10.1016/j.neucom.2015.01.095.
  14. Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Exploiting evidential theory in the fusion of textual, audio, and visual modalities for affective music video retrieval - IEEE Conference Publication". doi:10.1109/PRIA.2017.7983051. {{cite journal}}: Cite journal requires |journal= (help)
  15. Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (October 2017). "Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis". Neurocomputing. 261: 217–230. doi:10.1016/j.neucom.2016.09.117.
  16. Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 January 2013). "Utterance-level multimodal sentiment analysis". Long Papers. Association for Computational Linguistics (ACL).
  17. Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notes from the AI frontier. Insights from hundreds of use cases". McKinsey & Company (به انگلیسی). McKinsey & Company. Retrieved 13 June 2018.