لاما (مدل زبانی)
لاما (به انگلیسی: LLaMA) مخفف شده عبارت مدل زبانی بزرگ متا ایآی (به انگلیسی: Large Language Model Meta AI) یک مدل زبانی بزرگ است که توسط متا ایآی در فوریه ۲۰۲۳ منتشر شد. این مدل به انواع اندازههای مختف 7، 13، 33، و 65 میلیارد پارامتر آموزش داده شده است. توسعه دهندگان لاما مدعی هستند که عملکرد مدل ۱۳ میلیارد پارامتری در اکثر معیارهای پردازش زبان طبیعی از عملکرد جیپیتی ۳ فراتر رفته و با مدلهای پیشرفته مانند پالم و چینچیلا قابل رقابت است. قدرتمندترین مدلهای زبانی بزرگ عموماً فقط از طریق APIهای محدود قابل دسترسی بودند ولی متا مدل لاما را تحت یک مجوز غیرتجاری برای جامعه تحقیقاتی منتشر کرد. یک هفته پس از انتشار، لاما از طریق بیتتورنت در انجمن 4chan برای عموم مردم فاش شد.
در ژوئیه ۲۰۲۳، متا چندین مدل Llama 2 با پارامترهای 7، 13 و 70 میلیاردی را منتشر کرد.
لاما-3
[ویرایش]در ۱۹ آوریل ۲۰۲۴، لاما-3 را در دو اندازه: 8 و 70 میلیارد پارامتری منتشر کرد. این مدلها بر روی تقریباً 15 تریلیون نشانه متن جمعآوریشده از «منابع عمومی» آموزش دیدهاند. در مورد مدلهای دستورالعملی، آموزشهای نسخههای دستورالعملی نیز بر روی «مجموعههای دستورالعمل در دسترس عموم" و همچنین "بیش از 10 میلیون نمونه برچسبزدهشده توسط انسان» انجام شدهاند. هر دو مدل منبع باز فقط می توانند متن را بپذیرند و تولید کنند.[۱] متا اعلام کرده که برنامههایی برای انتشار مدلهای چندوجهی، با قابلیت مکالمه به زبانهای مختلف و همچنین با پنجره زمینه بزرگتر دارد. یک مدل جدید 400B+ نیز در حال حاضر در حال آموزش است. [۲]
لاما-2
[ویرایش]در ۱۸ ژوئیه ۲۰۲۳ ، متا با همکاری مایکروسافت، نسل بعدی محصولات لاما، با نام لاما-2 را معرفی کرد. متا لاما-2 را در سه اندازه مدل: 7، 13 و 70 میلیارد پارامتری آموزش داده و منتشر کرد. [۳] معماری مدل تا حد زیادی نسبت به مدلهای لاما-1 بدون تغییر باقی میماند، اما 40 درصد دادههای بیشتری برای آموزش مدلهای پایه استفاده شد. [۴] پیش مقاله پیش از انتشار[۴][پاورقی ۱] مدعی شده که ممکن است در آینده پس از برآورده کردن اهداف ایمنی در محصول، مدلی با پارامترهای 34B را منتشر کنند.
لاما-2 شامل دو مدل پایه و مدل محاورهای است بهخوبی تنظیم شده و Llama-2 Chat نام دارد. به منظور ایحاد تفاوت با مدل های لاما-1، همه مدلهای جدید با وزنهای مربوطه عرضه میشوند (وزنباز هستند) و برای بسیاری از کاربردهای تجاری رایگان هستند، یعنی نیاز دریافت به مجوز یا خرید ندارند. با این حال، به دلیل برخی محدودیتهای باقیمانده، توصیف لاما به عنوان منبع باز توسط پیشگامان متنباز (معروف به حفاظت از تعریف منبع باز هستند) مورد مناقشه قرار گرفته است. [۵]{{
معماری و آموزش
[ویرایش]معماری
[ویرایش]لاما از معماری استانداردمدلسازی زبان که از سال 2018 عمومیت یافت، همان ترنسفورمر، استفاده میکند.
در مقایسه با جیپیتی ۳، لاما تفاوتهای جزئی زیر را در معماری خود دارد:
- به جای GeLU از تابع فعال سازی SwiGLU استفاده می کند.[۶]
- به جای دگرنمایی موقعیتی، از دگرنمایی موقعیتی چرخشی[۷] استفاده میکند.
- به جای نرمالسازی لایه استاندارد از جذر میانگین مربعات در نرمالسازی لایه[۸] استفاده می کند. [۹]
- طول زمینه را از 2K نشانه (در لاما 1) به 4K نشانه (در لاما 2) افزایش داده است.
مجموعه داده های آموزشی
[ویرایش]توسعهدهندگان لاما تلاش خود را به جای افزایش تعداد پارامترها، بر مقیاسسازی عملکرد مدل با استفاده از افزایش حجم دادههای آموزشی متمرکز کردند. به این دلیل که هزینه غالب برای الالامها ناشی از استنتاج بر روی مدل آموزشدیده شده است، تا هزینه محاسباتی فرآیند آموزش.
مدلهای پایه لاما 1 بر روی یک مجموعه داده با 1.4 تریلیون نشانه، و از منابع دادهای در دسترس عموم آموزش دیدند، از جمله:
- آرشیو صفحات وب تهیه شده توسط کامِنکراول
- مخازن منبع باز کد منبع از گیتهاب
- ویکی پدیا به 20 زبان مختلف
- کتاب های مالکیت عمومی از پروژه گوتنبرگ
- کد منبع لاتخ برای مقالات علمی بارگذاری شده در آرکایو
- پرسش و پاسخ از وب سایت های استک اکسچنج
مدلهای پایه لاما 2 بر روی یک مجموعه داده با 2 تریلیون نشانه آموزش داده شدند. این مجموعه داده به دقت انتخاب دشه بود تاوبسایتهایی که اغلب اطلاعات شخصی افراد را افشا میکنند حذف کند. مدل همچنین از منابع قابل اعتماد استفاده میکند. [۱۰] علاوه بر این، مدل Llama 2 - Chat بر روی 27540 جفت پرسخ و پاسخ ایجاد شده برای این پروژه تنظیم شد که کیفیتی بالاتر از مجموعه دادههای شخص ثالث بزرگتر (اما با کیفیت پایینتر) داشت. برای همترازی با هوش مصنوعی، یادگیری تقویتی با بازخورد انسانی [پاورقی ۲] با ترکیبی از ۱۴۱۸۰۹۱ نمونه از شرکت متا و هفت مجموعه داده کوچکتر استفاده شد. میانگین عمق گفتگو در نمونه های متا 3.9، برای مجموعه های Anthropic Helpful و Anthropic Harmless برابر با 3.0 و برای پنج مجموعه دیگر، از جمله OpenAI Summarize، StackExchange و غیره، 1.0 بود.
تنظیمدقیق
[ویرایش]از انواع مدلهای لاما 1، تنها مدلهای پایه با یادگیری خود نظارتشده و بدون تنظیمدقیق در دسترس هستند. برای لاما 2، مدل های گفتگومحور از مدل های پایهای لاما 2 مشتق شدهاند. بر خلاف جیپیتی ۴ که طول زمینه را در هنگام تنظیمدقیق افزایش داد، لاما 2 و Llama 2 - Chat دارای طول زمینه یکسان معادل 4K نشانه هستند. در مرحله تنظیمدقیق نظارتشده، از یک تابع هزینه خودهمبسته استفاده میشود. بدین معنی که نشانههای درخواستهای کاربر در تابع هزینه بیاثر شده اند. به عبارت دیگر، مدل برای یادگیری (بهروز رسانی پارمترهایش) از پاسخ های خودش استفاده میکند نه از پاسخ های کاربر. اندازه دسته 64 بود.
برای تراز هوش مصنوعی ، نظرنویسان انسانی[پاورقی ۳] پرسشهایی را آماده و به مدل خوراندند. سپس دو خروجی مختلف مدل را با هم مقایسه کرده و با توجه به سطح اطمینان و سطح ایمنی، برچسبهای جداگانه به خروجی ها منتسب میکنند که باعث کنار گذاشته شدن یک خروجی میشود و خروجی را به نوعی وتو میکنند. اصطلاحاً یک پروتکل باینری اجرا میشود. برای دو اولویت ایمنی و مفید بودن پاسخها، دو مدل پاداش جداگانه آموزش داده میشود. یک پیشرفت بزرگ در این مرحله استفاده از یک تکنیک جدید مبتنی بر نمونهبرداری بازپسزننده پیش از اعمال بهینه سازی سیاست پروگزیمال[پاورقی ۴] در پیادهسازی یادگیری تقویتی با بازخورد انسانی است. در روشهای قدیمیتر در پیادهسازی RLHF به طور گسترده و اختصاصی از بهینه سازی سیاست پروگزیمال بهره میبردند.
برای اطمینان از این که "پیام های سیستم"[پاورقی ۵] در طول گفتگو رعایت شود، هدفگذاری و تمرکز در گفتگوها بر روی بهبود عملکرد با استفاده از تطابق چندمرحلهای انجام شد. این کار با استفاده از تکنیک جدید "توجه پنهانی" (یا "توجه روح")[پاورقی ۶] در طول آموزش انجام پذیرفت، ولی با این وجود، اثرگذاری نشانههای مربوط به دستورالمعلهای ضمیمه شده در تابع هزینه صفر میشوند.
انتشار مدل و نشت اطلاعات
[ویرایش]اطلاعرسانی عمومی لاما در 24 فوریه 2023 از طریق یک پست وبلاگ به همراه مقالهای که آموزش مدل، اعتبارسنجی و مجموعههای آزمایشی را توصیف میکرد، انجام شد. کد استنتاج مورد استفاده برای اجرای مدل به صورت عمومی تحت مجوز منبع باز جیپیال3 منتشر شد. دسترسی به وزنهای مدل توسط یک فرآیند درخواست مدیریت میشد، و دسترسی «به صورت موردی به پژوهشگران دانشگاهی؛ آنهایی که به سازمانهای دولتی، جامعه مدنی، و دانشگاهها وابسته بودند؛ و آزمایشگاههای تحقیقاتی صنعت در سراسر جهان اعطا میشد. ".
در 3 مارس 2023، تورنتی حاوی وزنهای لاما بارگذاری شد، و پیوند به تورنت آن صفحه تصاویر سایت ۴چن به اشتراک گذاشته شد. متعاقباً در جوامع برخط هوش مصنوعی نیز منتشر شد. در همان روز، یک درخواست کشش در مخزن اصلی لاما باز شد و درخواست افزودن [[طرح یوارآی آهنربایی|پیوند آهنربایی]] به اسناد رسمی را داده بود.[۱۱] [۱۲] در 4 مارس، یک درخواست کشش برای افزودن پیوندهای به مخازن هاگینگ فیس، که حاوی مدل لاما بودند، باز شد.[۱۳] [۱۱] در 6 مارس، متا درخواست حذف را برای حذف مخازن هاگینگ فیس مرتبط با درخواست کشش ارائه کرد و آن را «توزیع غیرمجاز» مدل توصیف کرد. هاگینگ فیس با درخواستهای شرکت متا موافقت کرد.[۱۴] در 20 مارس، متا به بهانه نقض حق نسخهبرداری یک درخواست حذف قانون کپیرایت هزاره دیجیتال را علیه یک مخزن حاوی اسکریپت که لاما را از یک سای آینهای بارگذاری میکرد، ارائه کرد و گیتهاب نیز روز بعد موافقت کرد.[۱۵] از 25 مارس، فیس بوک به درخواست کشش حاوی پیوند آهنربایی پاسخ نداده است. [۱۲]
واکنش ها به این نشت متفاوت بود. برخیگمانه زنی کردند که این مدل برای مقاصد مخرب مانند هرزنامه پیچیدهتر استفاده میشود. برخی نیز با اشاره به در دسترس بودن مدل و همچنین این واقعیت که نسخههای کوچکتر آن را نسبتاً ارزان میتوان اجرا کرد تمجید کردهاند؛ که نشان میدهد که این امر باعث شکوفایی پیشرفتهای تحقیقاتی بیشتر میشود. مفسران متعددی مانند سایمون ویلیسون، لاما را با استیبل دیفیوژن (یک مدل متن به تصویر) مقایسه کردند که بر خلاف مدلهای نسبتاً پیچیده قبل از خود، آشکارا توزیع شد و منجر به گسترش سریع ابزارها، تکنیکها و نرمافزارهای مرتبط شد.
بازتولید مجموعه داده
[ویرایش]در 17 آوریل 2023، شرکت TogetherAI پروژه ای به نام RedPajama را برای بازتولید و توزیع نسخه منبع باز مجموعه دادههای لاما راهاندازی کرد. این مجموعه داده تقریباً 1.2 تریلیون نشانه دارد و به صورت عمومی برای باگذاری توسط عموم در دسترس است.
کاربردها
[ویرایش]گئورگی گرگانف[پاورقی ۷] که توسعهدهنده نرمافزار بود، llama.cpp را منتشر کرد. این برنامه که یک نرمافزار بهینهسازی شده برای پیادهسازی مجدد LLaMa در C++ است. این کار به بسیاری از افراد اجازه داد تا سری مدل های لاما را به صورت محلی (بدون نیاز به دسترسی به خدمات ابری یا واسط برنامهنویسی کاربردی) اجرا کنند. [۱۶]
بخش هوش مصنوعی انسانمحور[پاورقی ۸] دانشگاه استنفورد که مرکز تحقیقات مدلهای بنیادی[پاورقی ۹] است، مدل Alpaca را منتشر کرد.در واقع این مدل یک دستورالعمل آموزشی مبتنی بر مدل LLaMA 7B است که به منظور تنظیم دقیق برای کاربرد دستورالعملی از روش"Self-Instruct" که بتواند رقیب قابل قبولی برای سری text-davinci-003 از مدلهای جیپیتی ۳ شرکت اوپنایآی باشد، ولی با هزینه اندک. [۱۷] [۱۸] چندین پروژه منبعباز وجود دارند که این راه را ادامه میدهند و با استفاده از مجموعه داده Alpaca به تنظیم دقیق لاما میپردازند.
مطالعات بیشتر در این زمینه
[ویرایش]- Huang, Kalley; O'Regan, Sylvia Varnham (September 5, 2023). "Inside Meta's AI Drama: Internal Feuds Over Compute Power". Archived from the original on September 5, 2023. Retrieved September 6, 2023.
پاورقی
[ویرایش]- ↑ Preprint
- ↑ Reinforcement Learning with Human Feedback (RLHF)
- ↑ Human annotators. افرادی که برای مدلهای هوش مصنوعی سوالها و متن هایی آماده میکنند که به عنوان ورودی مورد استفاده قرار میگیرند.
- ↑ Proximal Policy Optimization (PPO)
- ↑ System messages. دستورالعمل های اولیه، مانند "به فرانسوی صحبت کن" و "مانند ناپلئون بیان کن"
- ↑ Ghost attention. در این روش، به هر پیام جدیدی که کاربر به مدل میدهد، به طور عمدی دستورالعملهای مرتبط نیز الصاق میشود. این کار باعث میشود که دستورالعمل ابتدایی به مدل یادآوری شود. با این روش، پیوستگی دستورالعملها در دریافت مدل از کاربر تضمین میشود
- ↑ Georgi Gerganov
- ↑ Human-Centered Artificial Intelligence (HAI)
- ↑ Center for Research on Foundation Models (CRFM)
منابع
[ویرایش]- مشارکتکنندگان ویکیپدیا. «LLaMA». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۱ ژوئن ۲۰۲۳.
- ↑ "meta-llama/Meta-Llama-3-70B · Hugging Face". huggingface.co. 2024-04-18. Retrieved 2024-04-19.
- ↑ Introducing Meta Llama 3: The most capable openly available LLM to date
- ↑ "Meta and Microsoft Introduce the Next Generation of LLaMA". Meta. 18 July 2023. Retrieved 21 July 2023.
- ↑ ۴٫۰ ۴٫۱ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
- ↑ Edwards, Benj (2023-07-18). "Meta launches LLaMA-2, a source-available AI model that allows commercial applications [Updated]". Ars Technica (به انگلیسی). Retrieved 2023-08-08.
- ↑ Shazeer. "GLU Variants Improve Transformer". arXiv:2104.09864.
- ↑ Su. "RoFormer: Enhanced Transformer with Rotary Position Embedding". arXiv:2104.09864.
- ↑ Zhang. "Root Mean Square Layer Normalization". arXiv:1910.07467.
- ↑ Lei Ba. "Layer Normalization". arXiv:1607.06450.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۲].
- ↑ ۱۱٫۰ ۱۱٫۱ VK, Anirudh (6 March 2023). "Meta's LLaMA Leaked to the Public, Thanks To 4chan". Analytics India Magazine. Retrieved 17 March 2023.
- ↑ ۱۲٫۰ ۱۲٫۱ "Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama". GitHub (به انگلیسی). Retrieved 25 March 2023.
- ↑ "Download weights from hugging face to help us save bandwidth by Jainam213 · Pull Request #109 · facebookresearch/llama". GitHub (به انگلیسی). Retrieved 17 March 2023.
- ↑ Cox, Joseph (7 March 2023). "Facebook's Powerful Large Language Model Leaks Online". Vice (به انگلیسی). Retrieved 17 March 2023.
- ↑ OpSec Online LLC (21 March 2023). "github/dmca - Notice of Claimed Infringement via Email". GitHub. Retrieved 25 March 2023.
- ↑ Edwards, Benj (2023-03-13). "You can now run a GPT-3-level AI model on your laptop, phone, and Raspberry Pi". Ars Technica (به انگلیسی). Retrieved 2024-01-04.
- ↑ Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 March 2023). "Alpaca: A Strong, Replicable Instruction-Following Model". Stanford Center for Research on Foundation Models.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۳].