برت (مدل زبانی)
انکودر دو طرفه نمایشی از ترانسفورماتور (BERT) یک روش برای NLP (پردازش زبان طبیعی) بهصورت یک مدل از قبل آموزش داده شده است که توسط گوگل طراحی و توسعه داده شده است. برت در سال ۲۰۱۸ توسط یعقوب Devlin و همکاران او در گوگل ایجاد و منتشر شده است.[۱] ابزار برت گوگل برای اعمال نفوذ برای درک بهتر پرسوجوهای کاربران است.[۲]
مدل اصلی از قبل آموزش داده شده برت به زبان انگلیسی بر روی دو پیکره شامل پیکره کتاب و ویکیپدیای انگلیسی آموزش داده شده است.[۳]
معماری
[ویرایش]برت در هستهٔ خود دارای یک مدل زبانی مبتنی بر ترنسفورمر با تعداد زیادی از انکودرها و لایههای self-attention هست.[۴]برت به صورت از پیش آموزش دادهشده روی دو تسک هست. اولی تسک مدل کردن زبانی (Language Modeling) است که ۱۵ درصد از توکنها را به صورت ماسکشده قرار داده بودهاند که برت آموزش داده شده است تا بر اساس محتوا آنها را پیشبینی نماید. تسک دوم هم مرتبط با تسک پیشبینی عبارت بعدی (Next Sequence Prediction) است. در این تسک برت آموزش داده شده است تا اگر یه جملهٔ بعدی به صورت احتمالاتی داده شدهباشد یا اصلاً جملهٔ بعدی را نداشته باشیم چطور بتوانیم از روی یک جمله جملهٔ بعدی را پیشبینی نماییم. هردوی این مسئلهها مسائل پایهای و رایج در پردازش زبانهای طبیعی هستند و به صورت کاربردی در مسائل زیادی در پردازش زبانهای طبیعی کاربرد دارند. به عنوان نتیجه از یادگیری مدل برت میتوان گفت که برت میتواند به صورت محتوایی کلمات را در جملات و محتواهای خاص یاد بگیرد. مزیت این مدل این است که پس از اینکه به صورت از پیشآموزش دادهشده روی وظایف فوق آماده شد، حال میتوان آن را روی هر تسک دلخواهی از پردازش زبانهای طبیعی فاینتیون (Finetune) کرد و امروزه با دیتاستهای به نسبت کوچک روی وظایف دلخواه پردازش زبانهای طبیعی هم میتوان به نتایج خوب با دقتهای بالایی رسید و به صورت محاسباتی هم هزینهٔ کمتری دارند چراکه قبلا برت روی دادههای زیادی آموزش داده شده است.[۵]
کارایی مدل
[ویرایش]هنگامی که برت به عنوان یک مدل زبانی منتشر شد توانست به عنوان یک مدل لبهٔ علم روی برخی از وظایف پردازش زبانهای طبیعی عمل نماید. برخی از این دیتاستها عبارتند از:
- دیتاست GLUE که مجموعهای از دیتاستهایی است که در پردازش زبانهای طبیعی به عنوان وظایف معروف به کار میروند.
- دیتاست SQuAD که یک دیتاست از سمت دانشگاه استنفورد برای پرسش و پاسخ است.
- دیتاست SWAG که موقعیتهایی از پردازش زبانهای طبیعی است که یک سازندهٔ متخاصم آنها را درست کرده است.
- تحلیل احساسات که به کمک برت توانستند روی تعداد زیادی از زبانها به کارایی بسیار خوبی برسند.[۶]
تحلیل مدل
[ویرایش]دلایلی که توانسته است مدل زبانی برت را به یک مدل زبانی لبهٔ علم در پردازش زبانهای طبیعی تبدیل نمایند همچنان به صورت خوبی قابل توجیه و درک نیستند.[۷][۸] در حال حاضر بسیاری از پژوهشها روی این تمرکز دارند که رابطهای بین ورودی برت و خروجی که میتواند تولید کند را پیدا کنند که این رابطه میتواند خود را با استفاده از وزنهای ماتریس Attention نشان دهد.
تاریخچهٔ مدل
[ویرایش]پیش از برت تاریخچهٔ اینگونه مدلها به روشهای نیمهنظارتی یادگیری ماشین[۹] و مدلهایی دیگر نظیر ELMo[۱۰] و ULMFit[۱۱] برمیگردد. برخلاف مدلهای پیشین برت یک مدل دوطرفه (Bidirectional) بدون نظارت (Unsupervised) است که روی متن خام آموزش داده شده است. برخی از مدلهای دیگر نظیر Word2vec یا GloVe همگی به صورت مستقل از زمینه (Context free) هستند که برای هر کلمه مستقل از محتوا میتوانند یک نمایش (Embedding) ایجاد نمایند ولی برخلاف آنها برت با تمرکز روی زمینه (Context) میتواند بر اساس محتوا برای یک کلمه نمایشهای مختلفی داشته باشد و این ما را یک قدم به فهمیدن مفهوم یک کلمه در جمله فارز از معنی کلمه نزدیکتر میکند. به عنوان نمونه اگر دو جمله به صورت «He is running a comapny» و «He is running a marathon» داشته باشیم که در اولی «running» به معنای «اداره کردن» و در دومی «running» به معنای «دویدن» است برای این دو کلمه میتواند بر اساس محتوای جمله تفاوت قائل شود و آنها را به یک صورت نمیبیند ولی مدلهای پیشین که به صورت مستقل از محتوا عمل میکنند این مشکل را نمیتوانند حل نمایند.
در تاریخ ۲۵ اکتبر ۲۰۱۹ شرکت گوگل سرچ (Google Search) اعلام کرد که آنها شروع به استفاده از مدل زبانی برت برای جستجوهای انگلیسی کاربران آمریکایی شدهاند.[۱۲] همچنین در تاریخ ۹ دسامبر ۲۰۱۹ برت بر روی بیش از ۷۰ زبان زندهٔ دنیا پیادهسازی شدهبود[۱۳] و در اکتبر ۲۰۲۰ هر جستجوی انگلیسی با استفاده از برت انجام میشد و بر روی آن برت پردازشی برای تشخیص مفهوم انجام میداد.[۱۴]
مقالهٔ برت
[ویرایش]مقالهای که مدل زبانی برت را برای اولین بار معرفی نمود در سال ۲۰۱۹ جایزهٔ بهترین بلندترین مقالهٔ سال (Best Long Paper Award) را در قسمت آمریکای شمالی کنفرانس NAACL را برنده شد و به عنوان بهترین مقاله در این زمینه در سال ۲۰۱۹ شناخته شد.[۱۵]
منابع
[ویرایش]- ↑ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (به انگلیسی). Retrieved 2019-11-27.
- ↑ "Understanding searches better than ever before". Google (به انگلیسی). 2019-10-25. Retrieved 2019-11-27.
- ↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
- ↑ Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (2017-06-12). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].
- ↑ Horev, Rani (2018). "BERT Explained: State of the art language model for NLP". Towards Data Science. Retrieved 27 September 2021.
- ↑ Chiorrini, Andrea; Diamantini, Claudia; Mircoli, Alex; Potena, Domenico. "Emotion and sentiment analysis of tweets using BERT" (PDF). Proceedings of Data Analytics solutions for Real-LIfe APplications (DARLI-AP) 2021.
- ↑ Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). "Revealing the Dark Secrets of BERT". Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (به انگلیسی). pp. 4364–4373. doi:10.18653/v1/D19-1445. S2CID 201645145.
- ↑ Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276–286. doi:10.18653/v1/w19-4828.
- ↑ Dai, Andrew; Le, Quoc (4 November 2015). "Semi-supervised Sequence Learning". arXiv:1511.01432 [cs.LG].
- ↑ Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 February 2018). "Deep contextualized word representations". arXiv:1802.05365v2 [cs.CL].
- ↑ Howard, Jeremy; Ruder, Sebastian (18 January 2018). "Universal Language Model Fine-tuning for Text Classification". arXiv:1801.06146v5 [cs.CL].
- ↑ Nayak, Pandu (25 October 2019). "Understanding searches better than ever before". Google Blog. Retrieved 10 December 2019.
- ↑ Montti, Roger (10 December 2019). "Google's BERT Rolls Out Worldwide". Search Engine Journal. Search Engine Journal. Retrieved 10 December 2019.
- ↑ "Google: BERT now used on almost every English query". Search Engine Land. 2020-10-15. Retrieved 2020-11-24.
- ↑ "Best Paper Awards". NAACL. 2019. Retrieved Mar 28, 2020.