پیش‌نویس:Word embedding

از ویکی‌پدیا، دانشنامهٔ آزاد

تعبیه کلمه (word embedding) مجموعه ای از مدل‌های زبانی و تکنیک های یادگیری ویژگی در پردازش زبان طبیعی (NLP) است که در آن کلمات یا عبارات از واژگان به بردارهایی از اعداد واقعی نگاشت می شوند . از نظر مفهومی در واقع تعبیه کلمه یک جاسازی ریاضی از یک فضای با ابعاد بسیار زیاد برای هر کلمه به یک فضای برداری پیوسته با ابعاد بسیار پایین تر است.

برای ایجاد این نگاشت روش های بسیار زیادی شامل شبکه های عصبی ، کاهش ابعاد در ماتریس هم‌رخدادی کلمه ، [۱] مدل های احتمالی ، [۲] روش دانش بنیان قابل توضیح ، [۳] و نمایش صریح از نظر از موضوعی که کلمات در آن ظاهر می شود ، وجود دارد.

تعبیه کلمات و عبارات ، هنگامی که به عنوان ورودی اصلی استفاده می شود ، نشان داده اند که عملکردهای مسائل مربوط به پردازش زبان مانند تجزیه نحوی و تجزیه و تحلیل احساسات را افزایش می دهد .

توسعه و تاریخچه رویکرد[ویرایش]

در زبانشناسی ، تعبیه واژه ها در حوزه تحقیق معناشناسی توزیعی مورد بحث قرار گرفته است. هدف در این بررسی این است که شباهت های معنایی بین ساختارهای زبانی را بر اساس خصوصیات توزیعی آن ها با کمک داده های کلان زبانی ، اندازه گیری و طبقه بندی کنند. این روش ها براساس یک ایده اساسی که "a word is characterized by the company it keeps" که بدین معنی است که هر کلمه براساس اطرافیان و سایر کلماتی که با آن می‌اید مشخص می‌شود، توسط Firth رواج پیدا کردند .


مفهوم فضای معنایی با کمک اقلام واژگانی (کلمات یا عبارت‌های چند کلمه‌ای) که با بردار‌ها یا فضا‌های تعبیه شده نشان داده می‌شوند، بر مبنای مدل‌های محاسباتی هستند که تلاش می‌کنند تا ویژگی‌های توضیع کلمات را بیابیند. این مدل‌های محاسباتی در کاربرد برای اندازه گیری میزان شباهت بین کلمات و عبارات و متون استفاده می‌شوند. اولین نسل از مدل های فضای معنایی ، مدل فضای برداری برای بازیابی اطلاعات است. [۴] [۵] [۶] چنین مدل های بردار فضایی برای کلمات و داده های توزیعی آنها، در ساده ترین شکل خود به یک فضای برداری بسیار تنک با ابعاد بالا منجر می شود (ر.ک. مشقت بعدچندی ). کاهش تعداد ابعاد با استفاده از روشهای جبری خطی مانند تجزیه مقدار منفرد منجر به معرفی تحلیل معنایی نهفته در اواخر دهه 1980 و رویکرد نمایه سازی تصادفی برای جمع آوری زمینه های همزمانی کلمات شد. [۷] [۸] [۹] [۱۰] [۱۱].در سال 2000 Bengio و دیگران در یک سری از مقالات مدل "Neural probabilistic language models" معرفی کردند تا با کمک "یادگیری نمایش توزیع شده برای کلمات" از ابعاد بالای نمایش کلمات را کاهش دهند. [۱۲] تعبیه واژه ها در دو سبک متفاوت وجود دارد ، یکی در آن کلمات به عنوان بردار کلمات هم رخداد هستند ، و در دیگری در آن کلمات به عنوان بردار متن های زبانی که کلمات در آن وجود دارد ، بیان می شوند. این سبکهای مختلف در (Lavelli et al.، 2004) مورد مطالعه قرار گرفته است. از سال ۲۰۰۵ به بعد بیشتر روش های تعبیه کلمات بر مبنای استفاده از شبکه‌های عصبی[۱۳] [۱۴] شدند و استفاده از از مدل های احتمالاتی و جبری کاهش یافت این به خاطر کارهای بنادین پروفسور بنجیو و همکارانش بود.

پس از پیشرفتهای سال 2010 در سرعت آموزش مدل های عصبی و پیشرفت‌های سخت افزاری برای اموزش شبکه های عصبی، كه باعث می‌ شد تا فضای پارامتر وسیع تری بررسی شود، رویكرد استفاده از شبکه‌های عصبی توسط بسیاری از گروههای تحقیقاتی مورد توجه قرار گرفت. در سال 2013 ، یک تیم در گوگل به رهبری توماس میکولوف word2vec را ایجاد کردند ،word2vec یک جعبه ابزار تعبیه کلمه است که می تواند مدلهای فضایی برداری را سریعتر از رویکردهای قبلی آموزش دهد. رویکرد word2vec به طور گسترده ای در آزمایشات مورد استفاده قرار گرفته است و در افزایش علاقه به تعبیه واژه ها به عنوان یک فناوری ، و انتقال این رشته از تحقیقات تخصصی به سمت آزمایش های گسترده تر و در نهایت زمینه سازی برای کاربردهای عملی بسیار مثر بود. [۱۵]

محدودیت ها[ویرایش]

یکی از محدودیت های اصلی تعبیه کلمات (به طور کلی مدل های فضای بردار کلمات) این است که کلمات با چندین معنی در یک نمایش واحد (یک بردار واحد در فضای معنایی) تلفیق می شوند. به عبارت دیگر ، چند همسانی و همسان سازی به درستی اداره نمی شود. به عنوان مثال ، در جمله "رنگ شیر سفید بود" ، مشخص نیست که آیا کلمه "شیر" به معنای شیر به عنوان حیوان است یا شیر به عنوان یک نوشیدنی. از این رو ضرورت استفاده از چندین معنای هر کلمه در بردارهای مختلف (تعبیه های چندمعنایی) مشخص شد. و همین مورد انگیزه برای تحقیقات برای تقسیم تعبیه های تک معنا به موارد چند معنایی شده است.

اکثر رویکردهایی که تعبیه های چند مفهومی را ایجاد می کنند ، برای نمایش معنای کلمه ای خود به دو دسته اصلی تقسیم شوند یکی روش های بدون نظارت و دیگری روش های دانش بنیان. بر اساس skip-gram word2vec ، اسکیپ گرام چند منظوره (MSSG) [۱۶] با در نظر گرفتن تعداد معینی از معنی برای هر کلمه ، به طور همزمان ، تمایز بین معانی و تعبیه واژهر [۱۷] را انجام می دهد و زمان آموزش خود را بهبود می بخشد. در اسکیپ گرام غیر پارامتری (NP-MSSG) این تعداد بسته به هر کلمه می تواند متفاوت باشد. ترکیب دانش قبلی از پایگاه داده های واژگانی (به عنوان مثال، ورد نت ، ConceptNet ، بابلنت )، درونه گیریها کلمه و ابهامزدایی حس کلمه، مناسب ترین حس حاشیه نویسی (MSSA) [۱۸] برچسب کلمه حواس از طریق یک رویکرد نظارت نشده و مبتنی بر دانش با توجه زمینه یک کلمه در یک پنجره کشویی از پیش تعریف شده هنگامی که کلمات از ابهام خارج شدند ، می توان آنها را در یک روش استاندارد تعبیه کلمات استفاده کرد ، بنابراین تعبیه های چند مفهومی تولید می شوند. معماری MSSA این امکان را می دهد تا روند ابهام زدایی و حاشیه نویسی به صورت خودکار و بصورت مکرر انجام شود.

استفاده از تعبیه های چند منظوره برای بهبود عملکرد در چندین کاربرد پردازش زبان مانند برچسب گذاری بخشی از گفتار ، شناسایی رابطه معنایی و ارتباط معنایی شناخته شده است ،. با این حال ، به نظر می رسد این گونه تعبیه‌ها در کاربردهای مربوط به تشخیص کلمات خاص و تجزیه و تحلیل احساسات چندان کارایی ندارند. [۱۹]

برای توالی های بیولوژیکی: BioVectors[ویرایش]

تعبیه کلمات برای n-grams در توالی های بیولوژیکی (به عنوان مثال DNA ، RNA و پروتئین ها) برای کاربردهای بیوانفورماتیک توسط Asgari و Mofrad پیشنهاد شده است. [۲۰] بردارهای زیستی (BioVec) برای اشاره به توالی های بیولوژیکی به طور کلی با پروتئین بردارها (ProtVec) برای پروتئین ها (توالی اسیدهای آمینه) و بردارهای ژنی (GeneVec) برای توالی های ژنی ، این نمایش را می توان به طور گسترده ای در کاربردهای یادگیری عمیق در پروتئومیکس و ژنومیک استفاده کرد. نتایج ارائه شده توسط عسگری و مفرد نشان می دهد که BioVectors می تواند توالی های بیولوژیکی را از نظر تفسیرهای بیوشیمیایی و بیوفیزیکی از الگوهای اساسی توصیف کند.

بردارهای اندیشه[ویرایش]

بردارهای اندیشه بستی بر تعبیه کلمات به کل جملات یا حتی اسناد هستند. برخی از محققان امیدوارند که این روش‌ها بتواند کیفیت ترجمه ماشینی را بهبود بخشد. [۲۱]

نرم افزار آموزش و استفاده از تعبیه کلمات شامل Word2vec توسط میکولو ، Glove از دانشگاه استنفورد ، [۲۲] GN-GloVe ، [۲۳] AllenNLP's ELMo ، [۲۴] BERT ، [۲۵] fastText ، Gensim ، [۲۶] Indra [۲۷] و روش های کاهش بعد مثل t-SNE , PCA برای نمایش کلمات هستند. [۲۸]

نمونه هایی از کاربرد[ویرایش]

به عنوان مثال ، از fastText برای محاسبه تعبیه شده کلمات در Sketch Engine قرار گرفته است که به صورت آنلاین نیز در دسترس هستند . [۲۹]

همچنین ببینید[ویرایش]

  • خوشه قهوه ای

منابع[ویرایش]

  1. Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings through Hellinger PCA". Conference of the European Chapter of the Association for Computational Linguistics (EACL). 2014. arXiv:1312.5542. Bibcode:2013arXiv1312.5542L.
  2. Globerson, Amir (2007). "Euclidean Embedding of Co-occurrence Data" (PDF). Journal of Machine Learning Research.
  3. Qureshi, M. Atif; Greene, Derek (2018-06-04). "EVE: explainable vector based embedding technique using Wikipedia". Journal of Intelligent Information Systems (به انگلیسی). 53: 137–165. arXiv:1702.06891. doi:10.1007/s10844-018-0511-x. ISSN 0925-9902.
  4. Salton, Gerard (1962). "Some experiments in the generation of word and document associations". Proceeding AFIPS '62 (Fall) Proceedings of the December 4–6, 1962, Fall Joint Computer Conference: 234–250. doi:10.1145/1461518.1461544. Retrieved 18 October 2020.
  5. Salton, Gerard; Wong, A; Yang, C S (1975). "A Vector Space Model for Automatic Indexing". Communications of the Association for Computing Machinery (CACM). 18 (11): 613–620. doi:10.1145/361219.361220.
  6. Dubin, David (2004). "The most influential paper Gerard Salton never wrote". Retrieved 18 October 2020.
  7. Sahlgren, Magnus. "A brief history of word embeddings".
  8. Kanerva, Pentti, Kristoferson, Jan and Holst, Anders (2000): Random Indexing of Text Samples for Latent Semantic Analysis, Proceedings of the 22nd Annual Conference of the Cognitive Science Society, p. 1036. Mahwah, New Jersey: Erlbaum, 2000.
  9. Karlgren, Jussi; Sahlgren, Magnus (2001). Uesaka, Yoshinori; Kanerva, Pentti; Asoh, Hideki (eds.). "From words to understanding". Foundations of Real-World Intelligence. CSLI Publications: 294–308.
  10. Sahlgren, Magnus (2005) An Introduction to Random Indexing, Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005, August 16, Copenhagen, Denmark
  11. Sahlgren, Magnus, Holst, Anders and Pentti Kanerva (2008) Permutations as a Means to Encode Order in Word Space, In Proceedings of the 30th Annual Conference of the Cognitive Science Society: 1300–1305.
  12. Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Jauvin, Christian (2003). "A Neural Probabilistic Language Model" (PDF). Journal of Machine Learning Research. 3: 1137–1155.
  13. Morin, Fredric; Bengio, Yoshua (2005). "Hierarchical probabilistic neural network language model". AIstats. 5: 246–252.
  14. Mnih, Andriy; Hinton, Geoffrey (2009). "A Scalable Hierarchical Distributed Language Model". Advances in Neural Information Processing Systems 21 (NIPS 2008). Curran Associates, Inc.: 1081–1088.
  15. word2vec
  16. Neelakantan, Arvind; Shankar, Jeevan; Passos, Alexandre; McCallum, Andrew (2014). "Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space". Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics: 1059–1069. arXiv:1504.06654. doi:10.3115/v1/d14-1113.
  17. Neelakantan, Arvind; Shankar, Jeevan; Passos, Alexandre; McCallum, Andrew (2014). "Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space". Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics: 1059–1069. arXiv:1504.06654. doi:10.3115/v1/d14-1113.
  18. Ruas, Terry; Grosky, William; Aizawa, Akiko (2019-12-01). "Multi-sense embeddings through a word sense disambiguation process". Expert Systems with Applications. 136: 288–303. doi:10.1016/j.eswa.2019.06.026. ISSN 0957-4174. {{cite journal}}: |hdl-access= requires |hdl= (help)
  19. Li, Jiwei; Jurafsky, Dan (2015). "Do Multi-Sense Embeddings Improve Natural Language Understanding?". Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics: 1722–1732. arXiv:1506.01070. doi:10.18653/v1/d15-1200.
  20. Asgari, Ehsaneddin; Mofrad, Mohammad R.K. (2015). "Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics". PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. doi:10.1371/journal.pone.0141287. PMC 4640716. PMID 26555596.
  21. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
  22. "GloVe".
  23. Zhao, Jieyu (2018). "Learning Gender-Neutral Word Embeddings". arXiv:1809.01496.
  24. "Elmo".
  25. Pires, Telmo; Schlinger, Eva. "How multilingual is Multilingual BERT?". arXiv:1906.01502.
  26. "Gensim".
  27. "Indra". 2018-10-25.
  28. Ghassemi, Mohammad; Mark, Roger; Nemati, Shamim (2015). "A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes" (PDF). Computing in Cardiology.
  29. "Embedding Viewer". Embedding Viewer. Lexical Computing. Retrieved 7 Feb 2018.