بلوم (مدل زبانی)
مدل زبانی بزرگ چندزبانه علم کلان با دسترسی آزاد و دانش آزاد (به انگلیسی: BigScience Large Open-science Open-access Multilingual Language Model) به اختصار بلوم (به انگلیسی: BLOOM)[۱] یک مدل زبانی بزرگ مبتنی بر ترنسفورمرها است که توسط بیش از ۱۰۰۰ محقق هوش مصنوعی برای ارائه یک مدل زبانی بزرگ رایگان برای همه ایجاد شدهاست. این مدل در طی ماه مارس تا ژوئیه ۲۰۲۲، بر روی حدود ۳۶۶ میلیارد توکن آموزش دیده که به عنوان جایگزین مدل جیپیتی ۳ با ۱۷۶ میلیارد پارامتر، در نظر گرفته میشود. بلوم از معماری مدل ترنسفورمر فقط رمزگشا استفاده میکند که از جیپیتی ۲ اصلاح شدهاست.
پروژه بلوم توسط یکی از بنیانگذاران شرکت Hugging Face آغاز شد.[۲] شش گروه اصلی از افراد شامل تیم علم کلام از شرکت هاگینگ فیس، تیم DeepSpeed از مایکروسافت، Megatron-LM از تیم انویدیا، تیم IDRIS/GENCI، تیم پایتورچ درگیر بودند.[۲] بلوم با استفاده از دادههای ۴۶ زبان طبیعی و ۱۳ زبان برنامهنویسی آموزش داده شد. در مجموع، ۱٫۶ ترابایت متن از پیش پردازش شده به ۳۵۰ میلیارد توکن منحصر به فرد به عنوان مجموعه دادههای آموزشی بلوم تبدیل شد.[۳]
منابع
[ویرایش]- مشارکتکنندگان ویکیپدیا. «BLOOM (language model)». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۰ ژوئن ۲۰۲۳.
- ↑ "BigScience Large Open-science Open-access Multilingual Language Model". Retrieved 1 October 2022.
- ↑ ۲٫۰ ۲٫۱ "The Technology Behind BLOOM Training". Retrieved 1 October 2022.
- ↑ Teven Le Scao; Wang, Thomas; Hesslow, Daniel; Saulnier, Lucile; Bekman, Stas; M Saiful Bari; Biderman, Stella; Elsahar, Hady; Muennighoff, Niklas; Phang, Jason; Press, Ofir; Raffel, Colin; Sanh, Victor; Shen, Sheng; Sutawika, Lintang; Tae, Jaesung; Zheng Xin Yong; Launay, Julien; Beltagy, Iz (2022). "What Language Model to Train if You Have One Million GPU Hours?". arXiv:2210.15424.