پرش به محتوا

بلوم (مدل زبانی)

از ویکی‌پدیا، دانشنامهٔ آزاد

مدل زبانی بزرگ چندزبانه علم کلان با دسترسی آزاد و دانش آزاد (به انگلیسی: BigScience Large Open-science Open-access Multilingual Language Model) به اختصار بلوم (به انگلیسی: BLOOM)[۱] یک مدل زبانی بزرگ مبتنی بر ترنسفورمرها است که توسط بیش از ۱۰۰۰ محقق هوش مصنوعی برای ارائه یک مدل زبانی بزرگ رایگان برای همه ایجاد شده‌است. این مدل در طی ماه مارس تا ژوئیه ۲۰۲۲، بر روی حدود ۳۶۶ میلیارد توکن آموزش دیده که به عنوان جایگزین مدل جی‌پی‌تی ۳ با ۱۷۶ میلیارد پارامتر، در نظر گرفته می‌شود. بلوم از معماری مدل ترنسفورمر فقط رمزگشا استفاده می‌کند که از جی‌پی‌تی ۲ اصلاح شده‌است.

پروژه بلوم توسط یکی از بنیانگذاران شرکت Hugging Face آغاز شد.[۲] شش گروه اصلی از افراد شامل تیم علم کلام از شرکت هاگینگ فیس، تیم DeepSpeed از مایکروسافت، Megatron-LM از تیم انویدیا، تیم IDRIS/GENCI، تیم پای‌تورچ درگیر بودند.[۲] بلوم با استفاده از داده‌های ۴۶ زبان طبیعی و ۱۳ زبان برنامه‌نویسی آموزش داده شد. در مجموع، ۱٫۶ ترابایت متن از پیش پردازش شده به ۳۵۰ میلیارد توکن منحصر به فرد به عنوان مجموعه داده‌های آموزشی بلوم تبدیل شد.[۳]

منابع

[ویرایش]
  1. "BigScience Large Open-science Open-access Multilingual Language Model". Retrieved 1 October 2022.
  2. ۲٫۰ ۲٫۱ "The Technology Behind BLOOM Training". Retrieved 1 October 2022.
  3. Teven Le Scao; Wang, Thomas; Hesslow, Daniel; Saulnier, Lucile; Bekman, Stas; M Saiful Bari; Biderman, Stella; Elsahar, Hady; Muennighoff, Niklas; Phang, Jason; Press, Ofir; Raffel, Colin; Sanh, Victor; Shen, Sheng; Sutawika, Lintang; Tae, Jaesung; Zheng Xin Yong; Launay, Julien; Beltagy, Iz (2022). "What Language Model to Train if You Have One Million GPU Hours?". arXiv:2210.15424.