تحلیل احساسات چند وجهی

تحلیل احساسات چند وجهی بعد جدیدی از تحلیل احساسات مبتنی بر متن است، که فراتر از تجزیه و تحلیل متون می‌رود و شامل بررسی سایر ابعاد مانند داده‌های صوتی و تصویری نیز می‌شود.^[۱] تحلیل احساسات چندوجهی، می‌تواند دو وجهی باشد که به معنی ترکیب دو مدالیته مختلف است، یا سه وجهی باشد که دربرگیرنده سه مدالیته است.^[۲] با وجود حجم گسترده داده‌های رسانه‌های اجتماعی که به شکل‌های مختلف از جمله ویدئو و تصویر به صورت آنلاین در دسترس هستند، تکنیک متعارف تحلیل احساسات مبتنی بر متن به مدل‌های پیچیده‌تر تحلیل احساسات چندوجهی تبدیل شده‌است.^[۳] این تکنولوژی می‌تواند در توسعه دستیاران مجازی،^[۴] تجزیه و تحلیل نقد فیلم‌های یوتیوب،^[۵] تجزیه و تحلیل ویدیوهای خبری، و تشخیص احساسات مانند نظارت بر افسردگی و زمینه‌های دیگر کاربرد داشته باشد.

مشابه تحلیل احساسات سنتی، یکی از اساسی‌ترین وظایف در تحلیل احساسات چندوجهی ، طبقه‌بندی احساسات است که احساسات مختلف را به دسته‌هایی مانند مثبت، منفی یا خنثی دسته‌بندی می‌کند. پیچیدگی تجزیه و تحلیل ویژگی‌های متنی، صوتی و بصری برای انجام چنین کاری مستلزم استفاده از تکنیک‌های ترکیبی مختلف، مانند سطح ویژگی، سطح تصمیم، و ترکیب هایبرید است.^[۳] عملکرد این تکنیک‌های ادغامی و الگوریتم‌های طبقه‌بندی، تحت‌تاثیر نوع ویژگی‌های متنی، صوتی و بصری به کار رفته در این بررسی است.^[۶]

ویژگی‌ها[ویرایش]

مهندسی ویژگی، که شامل انتخاب ویژگی‌هایی است که به الگوریتم‌های یادگیری ماشین داده می‌شوند، نقش کلیدی در عملکرد طبقه‌بندی احساسات بازی می‌کند.^[۶] در تحلیل احساسات چندوجهی، ترکیبی از ویژگی‌های متنی، صوتی و بصری مختلف به کار گرفته می‌شود.^[۳]

ویژگی‌های متنی[ویرایش]

مشابه تجزیه و تحلیل احساسات مرسوم مبتنی بر متن، برخی از متداول‌ترین ویژگی‌های متنی مورد استفاده در تحلیل احساسات چندوجهی، تک-گرم‌ها و ان-گرم‌ها هستند که اساساً دنباله‌ای از کلمات در یک سند متنی هستند.^[۷] این ویژگی‌ها با استفاده از مدل بسته کلمات یا مدل بسته مفاهیم اعمال می‌شوند که در آن کلمات یا مفاهیم به صورت بردارهایی در فضایی مناسب نمایش داده می‌شوند.^[۸]^[۹]

ویژگیهای صوتی[ویرایش]

عواطف و احساسات دارای خصوصیات آوایی و عروضی متفاوتی در ویژگی‌های صوتی هستند.^[۱۰] برخی از مهم‌ترین ویژگی‌های صوتی مورد استفاده در تجزیه و تحلیل احساسات چندوجهی عبارتند از ضرایب فرکانس مل (MFCC)، مرکز طیفی، شار طیفی، هیستوگرام ضربان، مجموع ضربان، قوی‌ترین ضرب، مدت زمان مکث، و گام.^[۳] OpenSMILE و Praat ابزارهای منبع باز پرطرفدار برای استخراج این ویژگی‌های صوتی هستند.

ویژگی‌های بصری[ویرایش]

یکی از مزایای اصلی تجزیه و تحلیل ویدئوها در مقایسه با تحلیل صرف متن، غنی بودن نشانه‌های احساسات در داده‌های بصری است.^[۱۱] ویژگی‌های بصری شامل حالات چهره است که در شناسایی احساسات و عواطف از اهمیت بالایی برخوردار است، زیرا کانال اصلی نمایش حالات ذهنی فعلی فرد است.^[۳] به‌طور خاص، لبخند به عنوان یکی از واضح‌ترین نشانه‌های بصری در تحلیل احساسات چندوجهی در نظر گرفته می‌شود.^[۸] OpenFace یک جعبه ابزار منبع باز برای تجزیه و تحلیل چهره است که برای استخراج و درک چنین ویژگی‌های بصری در دسترس است.^[۱۲]

تکنیک‌های ترکیبی[ویرایش]

برخلاف تحلیل احساسات سنتی مبتنی بر متن، در تحلیل احساسات چندوجهی تحت یک فرایند ادغام، داده‌های روش‌های مختلف (متنی، صوتی یا بصری) با هم ترکیب و تجزیه و تحلیل می‌شوند.^[۳] رویکردهای موجود برای ادغام داده‌ها در تحلیل احساسات چندوجهی را می‌توان به سه دسته اصلی گروه‌بندی کرد: سطح ویژگی، سطح تصمیم، و ترکیب هایبرید. عملکرد طبقه‌بندی احساسات بستگی به نوع تکنیک ترکیبی مورد استفاده دارد.^[۳]

ترکیب در سطح ویژگی[ویرایش]

ترکیب در سطح ویژگی (که گاهی اوقات به عنوان ادغام اولیه شناخته می‌شود) همه ویژگی‌ها را از هر مدالیته (متنی، صوتی یا بصری) جمع‌آوری می‌کند و همه آنها را در یک بردار ویژگی واحد قرار می‌دهد که در نهایت به یک الگوریتم طبقه‌بندی وارد می‌شود.^[۱۳] یکی از مشکلات در اجرای این تکنیک، ادغام ویژگی‌های ناهمگن است.^[۳]

ترکیب در سطح تصمیم[ویرایش]

ترکیب در سطح تصمیم (که گاهی اوقات به عنوان ادغام ثانویه شناخته می‌شود)، داده‌های هر مدالیته (متنی، صوتی یا بصری) را به‌طور مستقل به الگوریتم طبقه‌بندی مختص به خود می‌دهد و با ادغام هر نتیجه در یک بردار تصمیم واحد، نتایج طبقه‌بندی احساسات نهایی را به دست می‌آورد.^[۱۳] یکی از مزایای این تکنیک ترکیبی، این است که نیاز به ترکیب داده‌های ناهمگن را از بین می‌برد و هر مدالیته می‌تواند از مناسب‌ترین الگوریتم طبقه‌بندی خود استفاده کند.^[۳]

ترکیب هیبریدی[ویرایش]

ترکیب هیبریدی، ترکیبی از تکنیک‌های ترکیب در سطح ویژگی و سطح تصمیم است که از اطلاعات تکمیلی هر دو روش در طول فرایند طبقه‌بندی استفاده می‌کند.^[۵] این فرایند معمولاً شامل یک روش دو مرحله‌ای است که در مرحله اول، ابتدا بین دوتا از مدالیته‌ها، روش ترکیب در سطح ویژگی پیاده‌سازی می‌شود و سپس در مرحله دوم برای ادغام کردن نتیجه این ترکیب با مدالیته باقیمانده، بین نتایج این فرایند و مدالیتهٔ باقیمانده، عملیات ترکیب در سطح تصمیم اعمال می‌شود.^[۱۴]^[۱۵]

کاربردها[ویرایش]

مشابه تجزیه و تحلیل احساسات مبتنی بر متن، تجزیه و تحلیل احساسات چندوجهی را می‌توان در توسعه سیستم‌های توصیه‌گر در اشکال مختلف مانند تجزیه و تحلیل ویدیوهای تولید شده توسط کاربران در خصوص نقد فیلم^[۵] و نقد کلی محصولات،^[۱۶] به منظور پیش‌بینی احساسات مشتریان و متعاقباً توصیه محصولات یا خدمات، استفاده کرد.^[۱۷] تجزیه و تحلیل احساسات چندوجهی همچنین نقش مهمی در پیشرفت دستیاران مجازی از طریق استفاده از پردازش زبان طبیعی (NLP) و تکنیک‌های یادگیری ماشین ایفا می‌کند.^[۴] در حوزه بهداشت و درمان، تجزیه و تحلیل احساسات چندوجهی می‌تواند برای تشخیص برخی شرایط پزشکی مانند استرس، اضطراب یا افسردگی استفاده شود. تجزیه و تحلیل احساسات چندوجهی را می‌توان در درک احساسات موجود در برنامه‌های خبری ویدیویی نیز به کار برد، از آنجایی که خبرنگاران معمولاً به‌طور واضح احساسات خود را نشان نمی‌دهند و بیشتر خنثی هستند، به عنوان یک حوزه پیچیده و چالش‌برانگیز در نظر گرفته می‌شود.

منابع[ویرایش]

↑ Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (September 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.^{^{[پیوند مرده]}}
↑ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems. 1: 137–159. doi:10.21307/ijssis-2017-283. Archived from the original (PDF) on 15 June 2018. Retrieved 3 January 2022.
↑ ^۳٫۰ ^۳٫۱ ^۳٫۲ ^۳٫۳ ^۳٫۴ ^۳٫۵ ^۳٫۶ ^۳٫۷ ^۳٫۸ Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (September 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003. {{cite journal}}: |hdl-access= requires |hdl= (help)
↑ ^۴٫۰ ^۴٫۱ "Google AI to make phone calls for you". BBC News. 8 May 2018. Retrieved 12 June 2018.
↑ ^۵٫۰ ^۵٫۱ ^۵٫۲ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (May 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context". IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34.
↑ ^۶٫۰ ^۶٫۱ Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.
↑ Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 May 2017). "Current State of Text Sentiment Analysis from Opinion to Emotion Mining". ACM Computing Surveys. 50 (2): 1–33. doi:10.1145/3057270.
↑ ^۸٫۰ ^۸٫۱ Perez Rosas, Veronica; Mihalcea, Rada; Morency, Louis-Philippe (May 2013). "Multimodal Sentiment Analysis of Spanish Online Videos". IEEE Intelligent Systems. 28 (3): 38–45. doi:10.1109/MIS.2013.9.
↑ Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (March 2015). "Towards an intelligent framework for multimodal affective data analysis". Neural Networks. 63: 104–116. doi:10.1016/j.neunet.2014.10.005. PMID 25523041. {{cite journal}}: |hdl-access= requires |hdl= (help)
↑ Chung-Hsien Wu; Wei-Bin Liang (January 2011). "Emotion Recognition of Affective Speech Based on Multiple Classifiers Using Acoustic-Prosodic Information and Semantic Labels". IEEE Transactions on Affective Computing. 2 (1): 10–21. doi:10.1109/T-AFFC.2010.16.
↑ Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Context-Dependent Sentiment Analysis in User-Generated Videos". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers): 873–883. doi:10.18653/v1/p17-1081.
↑ "OpenFace: An open source facial behavior analysis toolkit - IEEE Conference Publication". doi:10.1109/WACV.2016.7477553. {{cite journal}}: Cite journal requires |journal= (help)
↑ ^۱۳٫۰ ^۱۳٫۱ Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (January 2016). "Fusing audio, visual and textual clues for sentiment analysis from multimodal content". Neurocomputing. 174: 50–59. doi:10.1016/j.neucom.2015.01.095.
↑ Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Exploiting evidential theory in the fusion of textual, audio, and visual modalities for affective music video retrieval - IEEE Conference Publication". doi:10.1109/PRIA.2017.7983051. {{cite journal}}: Cite journal requires |journal= (help)
↑ Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (October 2017). "Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis". Neurocomputing. 261: 217–230. doi:10.1016/j.neucom.2016.09.117.
↑ Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 January 2013). "Utterance-level multimodal sentiment analysis". Long Papers. Association for Computational Linguistics (ACL).
↑ Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notes from the AI frontier. Insights from hundreds of use cases". McKinsey & Company (به انگلیسی). McKinsey & Company. Retrieved 13 June 2018.

[1] Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (September 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.^{^{[پیوند مرده]}}

[2] Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems. 1: 137–159. doi:10.21307/ijssis-2017-283. Archived from the original (PDF) on 15 June 2018. Retrieved 3 January 2022.

[s1-3] ۳٫۰ ^۳٫۱ ^۳٫۲ ^۳٫۳ ^۳٫۴ ^۳٫۵ ^۳٫۶ ^۳٫۷ ^۳٫۸ Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (September 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003. {{cite journal}}: |hdl-access= requires |hdl= (help)

[s5-4] ۴٫۰ ^۴٫۱ "Google AI to make phone calls for you". BBC News. 8 May 2018. Retrieved 12 June 2018.

[s4-5] ۵٫۰ ^۵٫۱ ^۵٫۲ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (May 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context". IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34.

[s7-6] ۶٫۰ ^۶٫۱ Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.

[7] Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 May 2017). "Current State of Text Sentiment Analysis from Opinion to Emotion Mining". ACM Computing Surveys. 50 (2): 1–33. doi:10.1145/3057270.

[s2-8] ۸٫۰ ^۸٫۱ Perez Rosas, Veronica; Mihalcea, Rada; Morency, Louis-Philippe (May 2013). "Multimodal Sentiment Analysis of Spanish Online Videos". IEEE Intelligent Systems. 28 (3): 38–45. doi:10.1109/MIS.2013.9.

[9] Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (March 2015). "Towards an intelligent framework for multimodal affective data analysis". Neural Networks. 63: 104–116. doi:10.1016/j.neunet.2014.10.005. PMID 25523041. {{cite journal}}: |hdl-access= requires |hdl= (help)

[10] Chung-Hsien Wu; Wei-Bin Liang (January 2011). "Emotion Recognition of Affective Speech Based on Multiple Classifiers Using Acoustic-Prosodic Information and Semantic Labels". IEEE Transactions on Affective Computing. 2 (1): 10–21. doi:10.1109/T-AFFC.2010.16.

[11] Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Context-Dependent Sentiment Analysis in User-Generated Videos". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers): 873–883. doi:10.18653/v1/p17-1081.

[12] "OpenFace: An open source facial behavior analysis toolkit - IEEE Conference Publication". doi:10.1109/WACV.2016.7477553. {{cite journal}}: Cite journal requires |journal= (help)

[s3-13] ۱۳٫۰ ^۱۳٫۱ Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (January 2016). "Fusing audio, visual and textual clues for sentiment analysis from multimodal content". Neurocomputing. 174: 50–59. doi:10.1016/j.neucom.2015.01.095.

[14] Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Exploiting evidential theory in the fusion of textual, audio, and visual modalities for affective music video retrieval - IEEE Conference Publication". doi:10.1109/PRIA.2017.7983051. {{cite journal}}: Cite journal requires |journal= (help)

[15] Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (October 2017). "Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis". Neurocomputing. 261: 217–230. doi:10.1016/j.neucom.2016.09.117.

[16] Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 January 2013). "Utterance-level multimodal sentiment analysis". Long Papers. Association for Computational Linguistics (ACL).

[17] Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notes from the AI frontier. Insights from hundreds of use cases". McKinsey & Company (به انگلیسی). McKinsey & Company. Retrieved 13 June 2018.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]