مدل زبانی بزرگ
| یادگیری ماشین و دادهکاوی |
|---|

مدل زبانی بزرگ[پاورقی ۱] (کوتهنوشت: LLM) یا الالام، سامانههای هوش مصنوعی هستند که برای درک، تولید و پاسخگویی به زبان انسان طراحی شدهاند. آنها «بزرگ» نامیده میشوند زیرا حاوی میلیاردها پارامتر هستند که به آنها امکان میدهد الگوهای پیچیده در دادههای زبان را پردازش کنند.
الالامها دستهای از مدلهای یادگیری ماشینی هستند که توانایی درک و تولید متنی شبیه انسان را دارند. این مدلها این تواناییها را با یادگیری روابط آماری از اسناد متنی در طی یک فرایند آموزشی فشرده محاسباتی خود نظارت و نیمه نظارت به دست میآورند.[۱] آنها بر روی مجموعه دادههای گستردهای آموزش دیدهاند که اغلب از اینترنت جمعآوری میشوند، و میتواند شامل منابع متنی بسیار متنوعی مانند صفحات ویکیپدیا، کتابها، موضوعات رسانههای اجتماعی و مقالات خبری باشد.[۲] مدلهای زبان بزرگ در حدود سال ۲۰۱۸ ظاهر شدند و در گستره وسیعی از وظایف، عملکرد بالایی دارند.[۳] در معماری داخلی این مدلها از ترنسفورمر بهره برده شده است. ترنسفورمرها شبکههای عصبی مصنوعی هستند که برای پردازش دنبالههای طولانی توکنها (نشانهها) به سازوکارهای توجه متکی هستند و معمولاً از دهها میلیون و تا میلیاردها پارامتر آموزشدیده دارند. ترنسفورمرها میتوانند وابستگیها و روابط بین کلمات و جملات، و همچنین نحو، معناشناسی و زمینه زبان طبیعی را به تصویر بکشند[۴] لذا میتوان به عنوان نوعی هوش مصنوعی مولد، از آنها برای تولید متن بهره برد.[۵] در این صورت هوش مصنوعی مولد با گرفتن یک متن ورودی و پیشبینی مکرر نشانه یا کلمه بعدی متن شبهانسانی تولید میکند.
تا تاریخ مارس ۲۰۲۴[بروزرسانی] بزرگترین و تواناترین آنها، با معماری مبتنی بر ترنسفورمرهای فقط رمزگشا ساخته شدهاند. در عین حال، برخی دیگر از پیادهسازیها بر اساس معماریهایی مانند انواع شبکه عصبی بازگشتی و مامبا (یک مدل فضای حالت) هستند.[۴][۶][۷]
برخی شرکتهای پیشرو در ارائه LLMها و محصولات آنها عبارتند از
| شرکت | مدل | کد منبع | برخی محصولات |
|---|---|---|---|
| اوپنایآی | GPT | بسته | جیپیتی ۳، جیپیتی ۴، جیپیای ۰۱، جیپیتی ۰۳ |
| گوگل | Gemma , BERT | باز | Gemini , Bard |
| گوگل | LaMDA , Palm | بسته | |
| ایکسایآی | گروک | بسته | گروک |
| متا | LLaMA | باز | meta.ai |
| آنتروپیک | کلود | بسته | Claude 3.5 Sonnet |
| Mistral AI | Mixtral | باز | Mistral 7B و Mistral NeMo |
| دیتابریکس | DBRX | باز | |
| مایکروسافت | Phi-1 | باز | مایکروسافت کوپایلوت (بر پایه چت جی پی تی ۴) |
| علیبابا | Qwen | باز | Qwen2.5 و Qwen2.5-Coder و Qwen2.5-Coder |
| tii | Falcon | باز | |
| بایدو | Ernie | بسته | |
| دیپسیک | DeepSeek | باز | دیپسیک Coder, دیپسیک R1, Janus-Pro |
این مدلها با اندازهها و قابلیتهای متفاوتی ارائه میشوند که از بین دهها میلیون تا میلیاردها پارامتر متغیر است. پارامترها وزنهایی مدل هستند که در طول آموزش یادمیگیرد نشانه یا کلمه بعدی را در یک دنباله پیشبینی کنند.
الالامها را میتوان برای کارهای مختلف پردازش زبان طبیعی (کوتهنوشت: NLP) مانند تولید متن، خلاصهسازی متن، پرسش و پاسخ، ترجمه ماشینی، تجزیه و تحلیل احساسات، طبقهبندی متن و موارد دیگر استفاده کرد.
الالامها همچنین میتوانند تنظیم دقیق آنها در مجموعه دادههای کوچکتر یا استفاده از شگردهای مهندسی پرسش، با دامنهها یا وظایف خاص سازگار شوند. با این حال، الالامها نیز دارای محدودیتها و چالشهایی هستند. به عنوان مثال، الالامها ممکن است نادرستی و سوگیری را از دادههایی که بر روی آنها آموزش دیدهاند یا از روشهای مهندسی سریع خود به ارث ببرند. الالامها همچنین ممکن است محتوای مضر یا گمراهکننده تولید کنند که میتواند بر رفاه انسان یا هنجارهای اجتماعی تأثیر بگذارد؛ بنابراین، الالامها باید به دقت ارزیابی شوند و توسط توسعه دهندگان و کاربران بهطور مسئولانه استفاده شوند.
تاریخچه
[ویرایش]در کنفرانس NeurIPS در سال ۲۰۱۷، محققان گوگل معماری ترنسفورمر را در مقاله مهم خود با عنوان «توجه همه آن چیزی است که نیاز دارید» معرفی کردند. هدف این مقالهٔ سال ۲۰۱۴ بهبود فناوری سک۲سک[۸] بود و عمدتاً مبتنی بر اساس مکانیسم توجه توسعه یافته توسط Bahdanau و همکاران بود.[۶] در سال ۲۰۱۸، مدل برت معرفی شد و به سرعت در همه جا حاضر شد.[۹] اگرچه مدل پایه ترنسفورمر دارای هر دو بلوک رمزگذار و رمزگشا است، ولی برت یک مدل فقط رمزگذار است.
اگرچه جیپیتی 1 فقط رمزگشا در سال ۲۰۱۸ معرفی شد، اما جیپیتی ۲ بود که در سال ۲۰۱۹ توجه گستردهای را به خود جلب کرد؛ زیرا اوپنایآی در ابتدا به دلیل ترس از استفاده مخرب، آن را برای انتشار عمومی بسیار قدرتمند میدانست.[۱۰] جیپیتی ۳ در سال ۲۰۲۰ یک قدم فراتر رفت و تا تاریخ ۲۰۲۴[بروزرسانی] فقط از طریق ایپیآی در دسترس است. این مدل امکان دانلود و اجرای محلی بر روی سکوهای کاربر را ندارد. اما تصورات عموم مردم زمانی جلب شد که در سال ۲۰۲۲ چتجیپیتی مبتنی بر مرورگر منتشر شد و باعث ایجاد هیاهوی رسانهای و سر و صدای آنلاین شد.[۱۱] در سال ۲۰۲۳ جیپیتی ۴ به دلیل افزایش دقت و قابلیتهای چندوجهی اش مورد ستایش قرار گرفت.[۱۲] اوپنایآی معماری سطح بالا و تعداد پارامترهای جیپیتی ۴ را منتشر نکرد.
در این میان، مدلهای زبان رقیب در اکثر موارد، حداقل از نظر تعداد پارامترها، به سری GPT دست یافتهاند.[۱۳] استثناهای قابل توجه از نظر تعداد پارامترها یا دقت اندازهگیری شده شامل T5-11B 2019 و PalM-E 2022 Google و Claude 3 2024 Anthropic است. از نظر رتبهبندی Elo، در ۲۶ ژانویه ۲۰۲۴، Bard (جمینی پرو) گوگل از GPT-4 معمولی پیشی گرفت، اما نه از GPT-4-Turbo با در دسترس بودن محدود.[۱۴]
از سال ۲۰۲۲، مدلهای زبانی بزرگ دارای منبع در دسترس به خصوص بلوم و لاما محبوبیت زیادی پیدا کردهاند. اگرچه هر دو این مدله محدودیتهایی در زمینه استفاده دارند. مدلهای Mistral 7B و Mixtral 8x7B شرکت میسترال ایآی که دارای مجوز آپاچی هستند آزادی بیشتری به کاربران میدهند. مطابق با LMSYS Chatbot Arena Leaderboard تا تاریخ ژانویه ۲۰۲۴[بروزرسانی] مدل Mixtral 8x7B قدرتمندترین LLM باز است که از GPT-3.5 قدرتمندتر است اما به اندازه GPT-4 قدرتمند نیست.[۱۵]
استفاده از ابزار
[ویرایش]برخی از وظایف هستند وجود دارد که حداقل بدون استفاده از ابزارهای خارجی یا نرمافزارهای اضافی اصولاً با هیچ الالام قابل انجام نیستند. نمونه ای از چنین کاری پاسخ دادن به سؤال '=۳۵*۱۳۹' است، مشروط بر اینکه الالام قبلاً با ادامه این محاسبه در مجموعه آموزشی خود مواجه نشده باشد. در چنین مواردی، الالام باید برنامهای که نتیجه را محاسبه میکند اجرا کرده، و سپس میتواند نتیجه محاسبات را در پاسخ بگنجاند. مثال دیگر پرسش "الان ساعت چند است؟" خواهدبود. مفسر باید در این شرایط برنامه جداگانهای را برای دریافت زمان سیستم در رایانه اجرا کند؛ بنابراین الالامها میتواند آن را در پاسخ خود قرار دهد.[۱۶][۱۷] با این استراتژی اساسی میتوان سایر استراتژیهای پیچیدهتر را نیز با استفاده از برنامههای جنبی بکار برد.[۱۸]
بهطور کلی، برای اینکه یک الالام از ابزار استفاده کند، باید آن را برای استفاده از ابزار تنظیم کنید. اگر تعداد ابزارها محدود باشد، تنظیم دقیق ممکن است فقط یک بار انجام شود. اگر نیاز به ابزارها افزایش یابد، مانند سرویسهای واسط برنامهنویسی کاربردی برخط، الالام میتواند به خوبی تنظیم شود تا بتواند مستندات API را بخواند و آن را به درستی فراخوانی کند.[۱۹][۲۰]
روش سادهتر استفاده از ابزار تولید تقویتشده بازیابی است: گاهی میتوانید با استفاده از یک پایگاه داده برداری، یک الالام را با روش بازیابی سند تقویت کنید. پس از دریافت یک پرس و جو توسط سیستم، یک درخواست بازیابی سند برای بازیابی مرتبطترین مطالب صادر میشود. مراحل بازیابی در این حالت به این شکل خواهد بود که پرس و جو به شکل برداری رمزگذاری شده، و سپس با استفاده از روش اقلیدسی به دنبال یافتن اسناد نزدیک به بردار پرس و جو میپردازد. سپس الالام یک خروجی بر اساس پرس و جو و اسناد بازیابیشده تولید میکند.[۲۱]
عامل
[ویرایش]الالام یک مدل زبانی است، و از آنجا که هدفی در آن گنجانده نشده، نمیتواند مانند یک عامل ظاهر شود. اما میتواند به عنوان جزئی از یک عامل هوشمند استفاده شود.[۲۲] محققان چندین روش را برای چنین ادغامهایی ارائه دادهاند.
روش ریاکت[پاورقی ۲] با استفاده از الالام به عنوان یک برنامهریز، الالام را به یک عامل تبدیل میکند. از الالام خواسته میشود که «با صدای بلند فکر کن». در این حالت روش کار بدین گونه است که، مدل زبان با پرسشی مواجه میشود شامل یک توصیف متنی از محیط و شرایط، هدف، فهرستی از اقدامات محتمل، و سابقه اقدامات مشابه و مشاهداتی تاکنون ثبت و ذخیره شدهاند. الالام قبل از تولید یک عمل، یک یا چند فکر ایجاد میکند و پس از آن آن اقدامات در محیط اجرا میشوند.[۲۳] توصیفات زبانی محیط که به برنامهریز الالام داده میشود حتی میتواند کد LaTeX مقالای باشد که محیط را توصیف میکند.[۲۴][۲۴]
در روش دیایپیاس ("توضیح، توصیف، برنامهریزی و انتخاب")،[پاورقی ۳] یک الالام ابتدا از طریق توصیف تصویر به دنیای بصری متصل میشود، سپس از آن خواسته میشود تا بر اساس دانش از پیش آموزش دیده و بازخوردهایی که از محیط دریافت میکند، برنامههایی برای وظایف و رفتارهای پیچیده تولید کند.[۲۵]
روش بازتاب[۶][پاورقی ۴] عاملی را میسازد که در چندین مرحله یادمیگیرد. در پایان هر مرحله، الالام سابقه و خروجی مرحله قبل داده میشود و از آن خواسته میشود تا بیاندیشد و «درسهای آموختهشده» دراین مرحله را تولید کند که به عملکرد بهتر در قسمت بعدی کمک میکند. این «درسهای آموختهشده» در مراحل بعدی به عنوان ورودی به مأمور داده میشوند.
درخت جستجوی مونت کارلو میتواند از یک الالام به عنوان وسیله اکتشاف استفاده کند. هنگامی که یک مدل جهان برنامهریزی شده در دسترس نیست، میتوان از یک الالام با توصیفی از محیط درخواست کرد تا به عنوان مدل جهانی عمل کند.[۶]
برای اکتشاف محیط-باز، میتوان از یک الالام درخواست کرد که به مشاهدات خود بر اساس «جالب بودن» آنها امتیاز دهد. این امتیاز را میتوان به عنوان یک سیگنال پاداش برای راهنمایی یک عامل یادگیری تقویتی معمولی (غیر الالام) استفاده کرد.[۶] در روش دیگر میتوان از الالام خواست وظایف دشوارتری را برای یادگیری برنامه درسی پیشنهاد کند.[۲۶] یک برنامهریز الالام میتواند بهجای تک خروجیهای اقدام، برای توالیهای پیچیده اقدام به ساخت یک «مهارت» یا تابع بکند. مهارتها را میتوان ذخیره کرد و بعداً مورد استفاده قرار داد، که امکان افزایش سطح مراحل اولیه برنامهریزی را فراهم میکند.[۲۶]
الالامهای عامل میتوانند یک حافظه بلندمدت داشته باشند و زمینههای قبلی کاری خود را در آن ذخیره کنند. این حافظه را میتوان به همان روشی تولید تقویتشده بازیابی دوباره استفاده کرد. چندین این الالام میتوانند به صورت اجتماعی از الالامها با یکدیگر تعامل داشته باشند.[۲۷]
فشردهسازی
[ویرایش]بهطور معمول، الالام با اعداد ممیز شناور با دقت کامل (float32) یا دقت نیمه (float16) آموزش داده میشود. یک float16 دارای ۱۶ بیت یا ۲ بایت است و بنابراین یک میلیارد پارامتر به ۲ گیگابایت فضا نیاز دارد. بزرگترین مدلهای فعلی معمولاً ۱۰۰ میلیارد پارامتر دارند که برای بارگذاری به ۲۰۰ گیگابایت حافظه نیاز است که آن را خارج از محدوده کارکردی اکثر لوازم الکترونیکی مصرفی کاربران قرار میدهد.
هدف کوانتیزاسیون پس از آموزش[۲۸] کاهش فضای مورد نیاز با کاهش دقت پارامترهای یک مدل آموزش دیده و در عین حال حفظ بیشتر عملکرد آن است.[۶][۶] سادهترین شکل کوانتش برش و حذف تعداد معینی از بیتها از تمام اعداد پارمترها است. برای بهبود عملکرد این روش میتوان با استفاده از یک کتاب کد، عمل کوانتیزاسیون را در هر لایه متفاوت از بقیه لایهها انجام داد. به منظور بهبود بیشتر میتوان برای پارامترهای مختلف دقتهای مختلف اعمال کرد. بدین صورت که به پارامترهای مهم ("وزنهای خارجی")[پاورقی ۵] دقت بالاتری اختصاص بدهیم.[۶]
با وجودی که فقط مدلهای غیر کوانتش شده تنظیم دقیق میشوند و مدلهای کوانتیزه را معمولاً منجمد (بدون تغییر و عدم امکان تنظیم دقیق) در نظر میگیرند، ولی مدلهای کوانتیزه گاهی میتوانند تنظیم دقیق شوند.[۲۹]
چندوجهی بودن
[ویرایش]چندوجهی بودن[پاورقی ۶] به معنای «داشتن چندین حالت» است و «حالت» یا «وجه»[پاورقی ۷] به نوع ورودی یا خروجی مانند ویدیو، تصویر، صدا، متن، حس عمقی، و غیره اشاره دارد.[۳۰] مدلهای هوش مصنوعی بسیاری وجود دارند که بهطور اختصاصی آموزش دیدهاند تا ورودی را از یک نوع بگیرند و خروجی را در نوع دیگری تحویل دهند. مانند برچسبزنی مدل الکس نت برای حالتهای تصویر/برچسب،[۳۱] یا مدلهای پاسخدهنده به سوالات تصویری برای حالتهای تصویر-متن/متن،[۳۲] و همچنین تشخیص گفتار برای حالتهای گفتار/متن.
یک روش رایج برای ساخت مدلهای چندوجهی از یک الالام، «نشانهگذاری کردن» خروجی یک رمزگذار آموزشدیده است؛ یعنی میتوان یک الالام ساخت که تصاویر را به صورت زیر درک میکند: یک الالام آموزشدیده و یک رمزگذار تصویر آموزشدیده را در نظر بگیرید. یک پرسپترون کوچک چند لایه را بسازید، به طوری که برای هر تصویر ، بردار پسپردازش آن دارای ابعادی یکسان با ابعاد نشانه رمزگذاری شده باشد. خروجی مد نظر ما یک «نشانه-تصویر» است. در ادامه، میتوان نشانههای متنی و نشانههای تصویر را به هم متصل کرد. درنهایت مدل ترکیبی بر روی یک مجموعه داده تصویر-متن تنظیم میشود. این ساختار اولیه را میتوان با کمی پیچیدگی بیشتر، برای بهبود مدل اعمال کرد. رمزگذار تصویر ممکن است برای بهبود پایداری تثبیت شود (پارامترهایش تغییر نکند).[۳۳]
مدل فلامینگو اثربخشی روش نشانهسازی را نشان داد و یک جفت مدل زبان و یک رمزگذار تصویر از پیش آموزشدیده را تنظیم کرد تا نسبت به مدلهایی که از ابتدا آموزش دیدهاند، در پاسخگویی بصری به سؤالات عملکرد بهتری داشته باشند.[۳۴] مدل Google پام شرکت گوگل با استفاده از روش نشانهسازی برای رسیدن به مدل چندوجهی پام-ای تنظیم شد و بر روی یک کنترلکننده رباتیک پیادهسازی د.[۶] مدلهای Lلامای شرکت متا نیز با استفاده از روش نشانهسازی چندوجهی شدهاند تا بتوانند ورودیهای تصویر،[۶] و ویدئویی را نیز دریافت کنند.[۶]
جیپیتی ۴ میتواند از متن و تصویر به عنوان ورودی استفاده کند[۶] (اگرچه مولفه تصویری این مدل تا پیش از نسخه GPT-4V عرضه عمومی نشده بود).[۳۵] جمینای محصول دیپمایند گوگل نیز چندوجهی است.[۳۶]
خصوصیات
[ویرایش]قوانین مقیاسپذیری
[ویرایش]چهار ابرپارامتر زیر یک الالام را تعیین میکنند:
- هزینه (پیش) آموزش ()
- اندازه خود شبکه عصبی مصنوعی، از جمله تعداد پارامترها (یعنی تعداد نورونها در لایههای آن، تعداد وزن بین آنها و بایاسها)،
- اندازه مجموعه داده (پیش) آموزش آن (یعنی تعداد نشانهها در پیکره متنی دانش، )
- عملکرد پس از (پیش) آموزش
مدلها با استفاده از قوانین آماری سادهای که "قوانین مقیاسپذیری" نامیده میشوند، به یکدیگر مرتبط میشوند. به عنوان مثال، یک قانون مقیاسپذیری خاص ("مقیاس سازی چینچیلا") که برای آموزش خودهمبسته الالام در هر مرحله، با برنامه نرخ یادگیری log-log بکار رفته، بیان میکند که:[۳۷]
به طوری که
- هزینه آموزش مدل، بر حسب فلاپس است.
- تعداد پارامترهای مدل است.
- تعداد نشانههای مجموعه آموزشی است.
- میانگین تلفات درستنمایی-لگاریتمی منفی در هر نشانه (nats/token) است که از الالام آموزشدیده بر روی مجموعه داده آزمایشی به دست آمده است.
و ابرپارامترهای آماری به شکل زیر خواهند بود:
- ، به این معنی که هزینه آموزش یک نشانه به هر پارامتر ۶ فلاپس خواهد بود. توجه داشته باشید که هزینه آموزش بسیار بالاتر از هزینه استنتاج است، به طوری که هزینه استنباط یک نشانه برابر با ۱ تا ۲ فلاپس به ازای هر پارامتر خواهد بود.[۳۸]
تفسیر
[ویرایش]مدلهای زبان بزرگ به خودی خود «جعبههای سیاه» هستند و مشخص نیست که چگونه میتوانند وظایف زبانی را انجام دهند. روشهای مختلفی برای درک نحوه کار الالام وجود دارد.
هدف تفسیرپذیری مکانیسکیک، مهندسی معکوس الالام با کشف الگوریتمهای نمادین است، که استنتاج انجامشده توسط الالام را تقریب میزنند. یک مثال برای این روش کارکردی، اتللو-جیپیتی است که در آن یک ترنسفورمر کوچک برای پیشبینی حرکات مجاز بازی اتللو آموزش دیده است. تحلیلها نشان داد که یک نمایش خطی از هیئت مدیره اتللو تولید شده است، و هرگونه تغییر یا اصلاح نمایش خطی، حرکات قانونی پیشبینی شده اتللو را به روش صحیح تغییر میدهد.[۳۹][۴۰] در مثالی دیگر، یک ترنسفورمر کوچک در برنامههای کارل آموزش دید. مشابه مثال اتللو-جیپیتی، از مفهوم برنامه کارل یک نمایش خطی وجود دارد، و اصلاح این نمایش، خروجی را به روش صحیح تغییر میدهد. این مدل همچنین برنامههای صحیحی را تولید میکند که بهطور متوسط کوتاهتر از برنامههای موجود در مجموعه داده آموزشی هستند.[۴۱]
در مثالی دیگر، نویسندگان یک مقاله ترنسفورمرهای کوچک را در به منظور اجرای جمع حسابی مدولار آموزش دادند. مدلهای به دست آمده مهندسی معکوس شدند و مشخص شد که از تبدیل فوریه گسسته استفاده میکنند.[۴۲]
درک و هوش
[ویرایش]که در یک نظرسنجی در سال ۲۰۲۲ از محققان پردازش زبانهای طبیعی هنگامی پرسیده شد که آیا الالامها (همیشه) میتوانند زبان طبیعی را به معنایی غیر پیش پا افتاده درک کنند یا خیر، به دو گروه با تعداد مساوی تقسیم شدند.[۴۳] طرفداران "درک الالام" معتقدند که برخی از تواناییهای الالام، مانند استدلال ریاضی، حاکی از توانایی "درک" برخی مفاهیم است. در سال ۲۰۲۳ یک تیم از شرکت مایکروسافت استدلال کردند که جیپیتی ۴ «میتواند کارهای بدیع و دشواری را که شامل ریاضیات، کدنویسی، بینایی، پزشکی، حقوق، روانشناسی و موارد دیگر میشود، حل کند» و اینکه «میتواند بهطور منطقی بهعنوان یک نسخه اولیه (اما هنوز ناقص) سیستم هوش عمومی مصنوعی در نظر گرفته شود. با این استدلال که "آیا به طور منطقی میتوان گفت، سیستمی که در امتحانات داوطلبان مهندسی نرمافزار قبول میشود واقعاً هوشمند نیست؟"[۶][۴۴] برخی از محققان، الالام را به عنوان «هوش بیگانه» توصیف میکنند.[۴۵][۴۶] به عنوان مثال، کانر لیهی، مدیر عامل شرکت Conjecture، الالامهای تنظیم نشده را مانند بیگانگان غیرقابل وصف "شوگوت" میداند و معتقد است که تنظیم دقیق در سیستم تولید تقویتشده بازیابی یک "ظاهر خندان" ایجاد میکند که عملکرد درونی الالام را پنهان نگه میدارد: "اگر آن را بیش از حد فشار ندهید، چهره خندان باقی میماند، اما وقتی که به آن یک فرمان [غیرمنتظره] میدهید، ناگهان جنون عظیم بی حد و مرز، و فرآیندهای فکری غیرانسانی دور از شأن و درک را میتوانید ببینید.[۴۷][۴۸]
در مقابل، برخی از طرفداران مکتب «الالام فاقد درک» معتقدند که الالامهای موجود «به سادگی مخلوط و ترکیب مجدد برنامههای نوشته شده موجود» هستند،[۴۶] پدیده ای که به عنوان طوطی تصادفی شناخته میشود. یا به کاستیهایی که الالامهای موجود در مهارتهای پیشبینی، مهارت استدلال، عاملیت و توضیحپذیری دارند اشاره میکنند.[۴۳] به عنوان مثال، جیپیتی ۴ دارای کاستیهای طبیعی در برنامهریزی و یادگیری در زمان واقعی است.[۶] دیده شده است که الالامهای مولد با اطمینان ادعاهای واقعی را مطرح میکنند که به نظر نمیرسد با دادههای آموزشی آنها توجیه شود. پدیدهای که «توهم»[پاورقی ۸] نامیده میشود.[۴۹] توهمها در حوزه الالام با تولید متن یا پاسخهایی مطابقت دارد که از نظر نحوی صحیح، روان و طبیعی به نظر میرسند، اما از نظر واقعی نادرست، بیمعنی یا حتی با ورودی منبع ارائه شده بی ارتباط هستند.[۶] ترنس سجنوفسکی، عصبشناس، استدلال کرده است که «نظرات متفاوت کارشناسان در مورد هوش الالامها نشان میدهد که ایدههای قدیمی ما مبتنی بر هوش طبیعی ناکافی هستند».[۴۳]
موضوع نشان دادن هوش یا درک الالام دارای دو جنبه اصلی است. اول این که چگونه فکر و زبان را در یک سیستم رایانهای مدلسازی کنیم، و دوم این که چگونه سیستم رایانهای را قادر به ساخت زبانی شبهانسانی بکنیم.[۴۳] در حوزه زبانشناسی شناختی، این جنبههای زبان به شکل مدلی از شناخت توسعه یافتهاند. به منظور استفاده از زبان انسانی به عنوان مدلی که در بخشهای یادگیری و درک به کار رود، یک زبانشناس آمریکایی با نام جرج لاکوف نظریه عصبی زبان (NTL)[پاورقی ۹][۵۰] را به عنوان مبنای محاسباتی ارائه کرد. مدل NTL نشان میدهد که چگونه ساختارهای عصبی خاص در مغز انسان ماهیت فکر و زبان را شکل میدهند و به نوبه خود ویژگیهای محاسباتی چنین سیستمهای عصبی را که میتوان برای مدلسازی فکر و زبان در یک سیستم رایانهای به کار برد به نمایش میگذارد. پس از آن که برای مدلسازی زبان در سیستمهای رایانهٔ یک چهارچوب ایجاد شد، تمرکز به سمت ایجاد چارچوبهایی معطوف شد که توانایی تولید زبان با دستور زبان قابل قبول را دارند. ویویان ایوانز، زبانشناس شناختی بریتانیایی و متخصص فناوری ارتباطات دیجیتال، در کتاب خود با عنوان «افسانه زبان: چرا زبان غریزه نیست» که در سال ۲۰۱۴ منتشر شد، نقش گرامر مستقل از متن تصادفی[پاورقی ۱۰] را در توانمندسازی پردازش زبانهای طبیعی برای مدل سازی الگوهای شناختی و ایجاد زبانی شبیهانسان ترسیم کرد.[۵۱][۵۱]
ارزیابی
[ویرایش]سرگشتگی
[ویرایش]متداولترین معیاری که برای بررسی عملکرد یک مدل زبان مورد استفاده قرار میگیرد، سرگشتگی آن در یک مجموعه متنی معین است. سرگشتگی معیاری است که نشان میدهد یک مدل تا چه اندازه میتواند محتویات یک مجموعه داده را پیشبینی کند. هر چه درستنمایی مدل نسبت به مجموعه داده بیشتر باشد، سرگشتگی کمتر است. از نظر ریاضی، سرگشتگی، توان نمایی منفی میانگین درستنمایی به ازای هر نشانه تعریف میشود:
در اینجا تعداد نشانهها در مجموعه متن و عبارت «context for token » بستگی به نوع الالام مورد استفاده دارد. اگر الالام خودهمبسته باشد، آنگاه «زمینهٔ نشانه» بخشی از متن است که قبل از نشانه ظاهر میشود. اگر الالام نقابپوش شده باشد، «زمینهٔ نشانه» بخشی از متن است که نشانه را احاطه کرده است.
بیتبرکلمه، بیتبرحرف، بیتبرنشانه[پاورقی ۱۱]
[ویرایش]در نظریه اطلاعات، مفهوم آنتروپی بهطور پیچیدهای با سرگشتگی مرتبط است. این رابطه توسط کلود شانون بیان شده است.[۵۲] صورت ریاضی این رابطه است.
آنتروپی، در این زمینه، معمولاً بر حسب بیتبرکلمه (کوتهنوشت: BPW) یا بیتبرکاراکتر (کوتهنوشت: BPC) بیان میشود، که بستگی به این دارد که مدل زبان از نشانهگذاری مبتنی بر کلمه استفاده میکند یا کاراکتر.
قابل ذکر است که در مورد مدلهای زبان بزرگتر که عمدتاً از نشانهسازی زیرکلمه[پاورقی ۱۲] استفاده میکنند، استفاده از واحد بیتبرنشانه (کوتهنوشت: BPT)به ظاهر مناسبتر میرسد. با این حال، به دلیل تفاوت در روشهای نشانهگذاری در الالامهای مختلف، BPT نمیتواند یک معیار قابل اعتماد برای تجزیهوتحلیل باشد و مقایسه بین مدلهای متنوع عمل نمیکند. برای تبدیل BPT به BPW، میتوان آن را در میانگین عدد نشانهدرکلمه ضرب کرد.
بهطور کلی در ارزیابی و مقایسه مدلهای زبانی، واحد اندازهگیری آنتروپی متقاطع بر آنتروپی ترجیح داده میشود اصل اساسی این است که یک BPW پایین، نشاندهنده قابلیت فشرده سازی مدل است که به سیستم اضافه شده است. و همین موضوع میتواند به نوبه خود نمادی از مهارت مدل در پیشبینیهای دقیق باشد.
مجموعه دادههای تخصصی و محک
[ویرایش]تعداد زیادی از مجموعه دادههای آزمایش و محک برای ارزیابی قابلیتهای مدلهای زبان در کارهای پاییندستی خاصتر ایجاد شدهاند. آزمونهای طراحیشده میتواند برای ارزیابی تواناییهای مختلف، از جمله دانش عمومی، قابلیت استدلال، و حل مسئله ریاضی به کار روند.
یک دسته وسیع از مجموعه دادههای ارزیابی، مجموعه دادههای پرسش و پاسخ است که شامل جفت سؤال و پاسخهای صحیح است. برای مثال، («آیا کوسههای سن خوزه جام استنلی را بردهاند؟»، «نه»).[۵۳] یک وظیفهٔ پرسش و پاسخ در صورتی «کتاب باز» در نظر گرفته میشود که دستور ورودی به مدل، شامل متنی باشد که میتوان پاسخ مورد انتظار را از آن استخراج کرد؛ یعنی، به عنوان مثال، سؤال قبلی را میتوان با متنی دیگری همراه کرد بدنی صورت که «کوسههایی که یک بار در جام استنلی به مرحله نهایی درست یافتند در سال ۲۰۱۶ به پنگوئن پیتسبورگ باختند."[۵۳] در غیر این صورت، وظیفه «کتاب بسته» در نظر گرفته میشود و مدل باید از دانش حفظ شده در طول آموزشهای قبلی برای پاسخگویی استفاده کند.[۵۴] برخی از نمونههای متداول مجموعه دادههای پاسخگویی به سؤالات عبارتند از TruthfulQA, Web Questions, TriviaQA و SQuAD.[۵۴]
مجموعه دادههای ارزیابی ممکن است به شکل متن با جای خالی نیز باشد. به این صورت که مدل محتملترین کلمه یا جمله را برای تکمیل یک پرسش انتخاب میکند. این مثال را مشاهده کنید: «آلیس با باب دوست بود. آلیس به ملاقات دوستش، ____ رفت.»[۵۵]
برخی از معیارهای ترکیبی نیز توسعه داده شدهاند که مجوعه متنوعی از دادهها و وظایف ارزیابی مختلف را ترکیب میکنند. به عنوان مثال میتوان به GLUE, SuperGLUE, MMLU, BIG-bench و HELM اشاره کرد.[۵۲][۵۴]
در گذشته مرسوم بود که آموزش یک مدل بر روی بخشی از مجموعه داده و سپس آزمایش آن بر روی یک بخش جداگانه از داده که مدل قبلاً با آن برخورد نداشت بود، صورت میگرفت. این عمل را تنظیم دقیق نظارتشده شناخته میشود.
امروزه روش مرسوم برای آزمایش مدلی که قبلاً آموزش دادهشده است (مدل از پیش آموزش دادهشده) با استفاده از مهندسی پرسش است. با این حال، هیچ رویکرد یکسانی برای همه وجود ندارد. محققان با توجه به کاربردهای مختلف، از استراتژیهای متفاوتی برای ایجاد این پرسشها استفاده میکنند.
یکی از جزئیات کلیدی که بین روشها تفاوت ایجاد میکند، تعداد نمونههای حل شدهای است که به همراه پرسش به مدل تزریق میشود. این پارامتر تحت عنوان پرسش n-shot شناخته میشود، که در آن 'n' تعداد مثال است. بن که در پرسش گنجانده شده است. به عبارت سادهتر، به جای اینکه یک مدل را بعد از آموزش روی دادههای دیده نشده آزمایش کنیم، اکنون آن را با دادن یک کار و چند مثال از نحوه حل آن آزمایش میکنیم.
تأثیرات
[ویرایش]در سال ۲۰۲۳، مجله مهندسی بیومدیکال طبیعت نوشت که «دیگر نمیتوان بهطور دقیق» متن نوشته شده توسط انسان را از متن ایجاد شده توسط الالامها تشخیص داد، و «مطمئن است که الالامهای همهمنظوره به سرعت تکثیر خواهند شد.» و «شرطبندی بر سر این که الالامها در طول زمان بسیاری از صنایع را تغییر دهند، بدون باخت است.»[۵۶] مؤسسه گلدمن ساکس در سال ۲۰۲۳ پیشبینی کرد که هوش مصنوعی با زبان مولد میتواند تولید ناخالص داخلی جهانی را در ده سال آینده تا ۷ درصد افزایش داده و ۳۰۰ میلیون شغل در سراسر جهان را در معرض اتوماسیون قرار دهد.[۵۷][۵۸]
به خاطر سپردن داده و قانون حق کپی
[ویرایش]برخلاف رفتار معمول شبکههای عصبی مصنوعی سنتی، به خاطر سپردن، یک رفتار نوظهور در الالامها است که هنگام تولید رشتههای طولانی متن، گهگاه کلمههایی عیناً مشابه به دادهای آموزش بیرون داده میشوند. ارزیابی خروجیهای کنترلشده الالامها، میزان متون حفظ شده از دادههای آموزش (با تمرکز بر مدلهای سری جیپیتی ۲) را بیش از ۱٪ برای موارد تکراری دقیق[۵۹] یا تا حدود ۷٪ اندازهگیری میکند.[۶۰]
امنیت
[ویرایش]برخی از نظردهندگان عمومی، نسبت به ایجاد تصادفی یا عمدی اطلاعات نادرست یا سایر اشکال استفاده نادرست از الالامها ابراز نگرانی کردند.[۶۱] برای مثال، در دسترس بودن الالامها میتواند سطح مهارت مورد نیاز برای ارتکاب بیوتروریسم را کم کند. یک محقق امنیت زیستی، کوین اسولت، پیشنهاد کرده است که سازندگان الالام باید از مقالات در زمینه ایجاد یا توسعه پاتوژنها را مخزن آموزشی خود حذف کنند.[۶۲]
مطالعه محققان در گوگل و چندین دانشگاه، از جمله دانشگاه کرنل و دانشگاه کالیفرنیا، برکلی، نشان داد که خطرات امنیتی بالقوهای در مدلهای زبانی مانند چتجیپیتی وجود دارد. در این مطالعه آنها این امکان را بررسی کردند که آیا پرسشکنندگان میتوانند دادههای آموزشی را که مدل هوش مصنوعی استفاده میکرد، از چتجیپیتی دریافت کنند. این محققان دریافتند که میتوان دادههای آموزشی را از مدل هوش مصنوعی دریافت کرد. به عنوان مثال، وقتی از چتجیپیتی ۳٫۵ توربو میخواهیم کلمه «شعر» را برای همیشه تکرار کند، مدل هوش مصنوعی صدها بار «شعر» میگوید و سپس از سبک استاندارد دیالوگ منحرف میشود و عبارات غیرمرتبط را بیرون میریزد، و عملاً بخشهایی از دادههای آموزش خود را بدون تغییر بیرون میریزد. محققان به بیش از ۱۰۰۰۰ نمونه مختلف برخورد کردند که مدل هوش مصنوعی دادههای آموزشی خود را با روشی مشابه در معرض نمایش قرار میدهد. محققان به این نتیجه رسیدند که تشخیص اینکه آیا مدل هوش مصنوعی واقعاً ایمن است یا نه دشوار است.[۶۳]
حضور بالقوه «عامل خفته» در الالامها یکی دیگر از نگرانیهای امنیتی در حال ظهور است. این عامل قابلیتهای پنهانی هستند که در مدل تعبیه شدهاند و تا زمانی که توسط یک رویداد یا شرایط خاص فعال شوند، غیرفعال باقی میمانند. پس از فعالسازی، الالام از رفتار مورد انتظار منحرف میشود به اقدامات ناامن دست میزند.[۶۴]
سوگیری الگوریتمی
[ویرایش]در حالی که الالامها قابلیتهای قابل توجهی در تولید متن شبهانسانی نشان دادهاند، آنها مستعد به ارث بردن و تقویت سوگیریهای موجود در دادههای آموزشی خود هستند. این موضوع میتواند در بازنماییهای نادرست یا رفتار ناعادلانه با جمعیتهای مختلف، مانند موارد مرتبط با نژاد، جنسیت، زبان و گروههای فرهنگی آشکار شود.[۶۵] از آنجایی که دادههای به زبان انگلیسی در دادههای آموزشی مدلهای زبان بزرگ کنونی بیش از بقیه زبانها وجود دارد، ممکن است دیدگاههای غیرانگلیسی را نیز کماهمیت جلوه داده شوند.[۶]
کلیشه سازی
[ویرایش]مدلهای هوش مصنوعی میتوانند طیف گستردهای از کلیشهها را، از جمله مدلهای مبتنی بر جنسیت، قومیت، سن، ملیت، مذهب یا شغل بازتاب یا تقویت کنند. این میتواند منجر به خروجیهایی شود که بهطور ناعادلانه به تعمیمدهی گروههایی از مردم یا حتی تمسخر آنها، حتی گاهی به روشهای مضر یا تحقیرآمیز، منجر شود.[۶۶]
سوگیری جنسیتی اشاره به تمایل این مدلها به تولید خروجیهایی دارد که ناعادلانه نسبت به یک جنسیت تعصب دارند. این سوگیری معمولاً از دادههایی ناشی میشود که این مدلها بر اساس آنها آموزش داده شدهاند. اغلب مدلهای زبانی بزرگ بر اساس هنجارهای جنسیتی سنتی، نقشها و ویژگیهایی را تعریف و استفاده میکنند.[۶۵] به عنوان مثال، ممکن است پرستاران یا منشیها را عمدتاً با زنان و مهندسان یا مدیران عامل را با مردان مرتبط کند.[۵۱]
تعصب سیاسی
[ویرایش]سوگیری سیاسی به تمایل الگوریتمها برای برتری سیستماتیک دیدگاهها، ایدئولوژیها یا نتایج سیاسی خاص اشاره دارد. مدلهای زبانی نیز ممکن است سوگیریهای سیاسی را از خود بروز دهند. از آنجایی که دادههای آموزشی شامل طیف گستردهای از نظرات سیاسی است، بسته به شیوع آن دیدگاهها در دادهها، مدلها ممکن است پاسخهایی ایجاد کنند که به ایدئولوژیها یا دیدگاههای سیاسی خاص متمایل هستند.[۶۷]
چگونگی کار
[ویرایش]تصور کنید در حال انجام یک بازی ویدیویی هستید که در آن شخصیت کامپیوتری میتواند تمام جزئیات اتفاقات گذشته را به خاطر بسپارد، اتفاقات بعدی را پیشبینی کند و حتی برای شما داستانی تعریف کند. به نوعی الالامها این کار را میکنند. آنها حجم وسیعی از دادههای متنی را تجزیه و تحلیل میکنند، از آن یادمیگیرند و سپس از آن دانش برای تولید پاسخهایی استفاده میکنند که شبیه انسان به نظر میرسند.
آنها با پیشبینی کلمه یا نشانه بعدی بر اساس کلمات یا نشانههای قبلی که دیدهاند کار میکنند. برای مثال، اگر به یک مدل زبانی بزرگ ورودی «آسمان» را بدهید، ممکن است کلمه بعدی را به صورت «آبی» یا «ابری» یا «تاریک» پیشبینی کند.
برای انجام این کار، الالامها از حجم عظیمی از دادهها، مانند متن از اینترنت، کتاب، مقاله و سایر منابع برای یادگیری الگوها و قوانین زبان استفاده میکنند. آنها همچنین از نوع خاصی از شبکه عصبی به نام ترانسفورمر (مبدل) برای پردازش توالیهای ورودی و خروجی کلمات یا نشانهها استفاده میکنند. ترانسفورمر از لایههای زیادی از واحدها به نام نورون تشکیل شده است که عملیات ریاضی را روی توالیهای ورودی و خروجی انجام میدهد.
الالامها با تنظیم پارامترها یا وزن نورونها در لایههای ترانسفورمر آموزش میبینند، به طوری که میتوانند خطا بین کلمه یا نشانه بعدی پیشبینی شده و واقعی را به حداقل برسانند. هر چه الالام دادهها و پارامترهای بیشتری داشته باشد، بهتر میتواند زبان را بیاموزد و کارهای مختلفی مانند خلاصهنویسی، ترجمه، پاسخ به سؤالات، نوشتن مقاله و غیره را بهتر انجام دهد. با این حال، داشتن دادهها و پارامترهای بیشتر به این معنی است که الالام برای آموزش و اجرا به منابع محاسباتی بیشتری مانند حافظه و قدرت پردازش نیاز دارد. بهعلاوه، به این معنی است که الالام ممکن است سوگیریها و خطاهای موجود در دادهها مانند کلیشهها، پیشداوریها و اطلاعات غلط را به ارث برده یا حتی تقویت کند؛ بنابراین، الالامها باید به دقت طراحی و آموزش داده شده و ارزیابی شوند تا از دقت، عدالت و استفاده اخلاقی از آنها اطمینان حاصل شود.
تنظیم بر اساس دستور (Instruction Tuning)
[ویرایش]تنظیم بر اساس دستور (Instruction Tuning) یکی از روشهای مهم در توسعه مدلهای زبانی بزرگ است که به مدل کمک میکند تا دستورهای انسانی را بهتر درک کرده و پاسخهای مناسبتری تولید کند. در این روش، مدل با استفاده از دادههایی شامل جفتهای «پرسش یا دستور» (prompt) و «پاسخ» (response) آموزش داده میشود. هدف این است که مدل بتواند بر اساس ورودی کاربر، خروجیای مرتبط، دقیق و مفید تولید کند.
برخلاف روشهای سنتی مدلسازی زبان که در آنها مدل صرفاً کلمه بعدی را پیشبینی میکند، در تنظیم بر اساس دستور تمرکز اصلی بر تولید پاسخ کامل و معنادار است. در این فرآیند، معمولاً تابع خطا فقط بر روی بخش پاسخ اعمال میشود تا مدل یاد بگیرد چگونه پاسخ مناسب تولید کند، بدون آنکه برای متن ورودی جریمه شود.
این روش با ظهور معماریهایی مانند ترنسفورمر و مدلهایی مانند GPT اهمیت بیشتری پیدا کرده است. تنظیم بر اساس دستور باعث میشود یک مدل بتواند وظایف مختلفی مانند پاسخ به سؤال، خلاصهسازی، ترجمه و استدلال را بدون نیاز به طراحی مدلهای جداگانه انجام دهد. به همین دلیل، این رویکرد به یکی از مراحل استاندارد در توسعه مدلهای زبانی مدرن تبدیل شده است.
مشاهدات بیشتر
[ویرایش]پانویس
[ویرایش]- ↑ Large Language Model
- ↑ ReAct ("Reason + Act")
- ↑ DEPS ("Describe, Explain, Plan and Select")
- ↑ Reflexion method
- ↑ outlier weights
- ↑ Multimodality
- ↑ Modality
- ↑ Hallucination
- ↑ Neural Theory of Language
- ↑ Probabilistic Context-Free Grammar (PCFG)
- ↑ BPW (bits per word), BPC (bits per character) and BPT (bits per token)
- ↑ sub-word tokenization
منابع
[ویرایش]- ↑ "Better Language Models and Their Implications". OpenAI. 2019-02-14. Archived from the original on 2020-12-19. Retrieved 2019-08-25.
- ↑ Glover, Ellen (Jan 9, 2024). "large-language-models-llm". Analytics India Magazine.
- ↑ Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870.
- 1 2 Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog (به انگلیسی). Retrieved 2023-07-25.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:.
- 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 A bot will complete this citation soon. Click here to jump the queue arXiv:.
- ↑ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752
- ↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
- ↑ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349.
- ↑ Hern, Alex (14 February 2019). "New AI fake text generator may be too dangerous to release, say creators". The Guardian. Retrieved 20 January 2024.
- ↑ "ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months". Euronews. November 30, 2023. Retrieved January 20, 2024.
- ↑ Heaven, Will (March 14, 2023). "GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why". MIT Technology Review. Retrieved January 20, 2024.
- ↑ "Parameters in notable artificial intelligence systems". ourworldindata.org. November 30, 2023. Retrieved January 20, 2024.
- ↑ "Google's Gemini Pro Beats GPT-4". analyticsindiamag.com. January 27, 2024. Retrieved January 29, 2024.
- ↑ "LMSYS Chatbot Arena Leaderboard". huggingface.co. Retrieved January 20, 2024.
- ↑ Gao, Luyu; Madaan, Aman; Zhou, Shuyan; Alon, Uri; Liu, Pengfei; Yang, Yiming; Callan, Jamie; Neubig, Graham (2022-11-01). "PAL: Program-aided Language Models". arXiv:2211.10435 [cs.CL].
- ↑ "PAL: Program-aided Language Models". reasonwithpal.com. Retrieved 2023-06-12.
- ↑ Paranjape, Bhargavi; Lundberg, Scott; Singh, Sameer; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Tulio Ribeiro, Marco (2023-03-01). "ART: Automatic multi-step reasoning and tool-use for large language models". arXiv:2303.09014 [cs.CL].
- ↑ Liang, Yaobo; Wu, Chenfei; Song, Ting; Wu, Wenshan; Xia, Yan; Liu, Yu; Ou, Yang; Lu, Shuai; Ji, Lei; Mao, Shaoguang; Wang, Yun; Shou, Linjun; Gong, Ming; Duan, Nan (2023-03-01). "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". arXiv:2303.16434 [cs.AI].
- ↑ Patil, Shishir G.; Zhang, Tianjun; Wang, Xin; Gonzalez, Joseph E. (2023-05-01). "Gorilla: Large Language Model Connected with Massive APIs". arXiv:2305.15334 [cs.CL].
- ↑ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 9459–9474. arXiv:2005.11401.
- ↑ Huang, Wenlong; Abbeel, Pieter; Pathak, Deepak; Mordatch, Igor (2022-06-28). "Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents". Proceedings of the 39th International Conference on Machine Learning (به انگلیسی). PMLR: 9118–9147. arXiv:2201.07207.
- ↑ Yao. "ReAct: Synergizing Reasoning and Acting in Language Models". arXiv:2210.03629.
- 1 2 Wu. "SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning". arXiv:2305.15486.
- ↑ Wang. "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents". arXiv:2302.01560.
- 1 2 "Voyager | An Open-Ended Embodied Agent with Large Language Models". voyager.minedojo.org. Retrieved 2023-06-09.
- ↑ Park. "Generative Agents: Interactive Simulacra of Human Behavior". arXiv:2304.03442.
- ↑ Nagel, Markus; Amjad, Rana Ali; Baalen, Mart Van; Louizos, Christos; Blankevoort, Tijmen (2020-11-21). "Up or Down? Adaptive Rounding for Post-Training Quantization". Proceedings of the 37th International Conference on Machine Learning (به انگلیسی). PMLR: 7197–7206.
- ↑ Dettmers. "QLoRA: Efficient Finetuning of Quantized LLMs". arXiv:2305.14314.
- ↑ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich (2014-06-18). "Multimodal Neural Language Models". Proceedings of the 31st International Conference on Machine Learning (به انگلیسی). PMLR: 595–603.
- ↑ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 25.
- ↑ Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015). "VQA: Visual Question Answering". ICCV: 2425–2433.
- ↑ Li. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". arXiv:2301.12597.
- ↑ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine (2022-12-06). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems (به انگلیسی). 35: 23716–23736. arXiv:2204.14198.
- ↑ OpenAI (September 25, 2023). "GPT-4V(ision) System Card" (PDF).
- ↑ Pichai, Sundar, Google Keynote (Google I/O '23) (به انگلیسی), timestamp 15:31, retrieved 2023-07-02
- ↑ Hoffmann. "Training Compute-Optimal Large Language Models". arXiv:2203.15556.
- ↑ Section 2.1 and Table 1, Kaplan. "Scaling Laws for Neural Language Models". arXiv:2001.08361.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:.
- ↑ "Large Language Model: world models or surface statistics?". The Gradient (به انگلیسی). 2023-01-21. Retrieved 2023-06-12.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:.
- 1 2 3 4 Mitchell, Melanie; Krakauer, David C. (28 March 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. 120 (13): e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. PMC 10068812. PMID 36943882.
- ↑ Metz, Cade (16 May 2023). "Microsoft Says New A.I. Shows Signs of Human Reasoning". The New York Times.
- ↑ "ChatGPT is more like an 'alien intelligence' than a human brain, says futurist". ZDNET (به انگلیسی). 2023. Retrieved 12 June 2023.
- 1 2 Newport, Cal (13 April 2023). "What Kind of Mind Does ChatGPT Have?". The New Yorker. Retrieved 12 June 2023.
- ↑ Roose, Kevin (30 May 2023). "Why an Octopus-like Creature Has Come to Symbolize the State of A.I." The New York Times. Retrieved 12 June 2023.
- ↑ "The A to Z of Artificial Intelligence". Time Magazine (به انگلیسی). 13 April 2023. Retrieved 12 June 2023.
- ↑ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang (November 2022). "Survey of Hallucination in Natural Language Generation" (pdf). ACM Computing Surveys. Association for Computing Machinery. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. Retrieved 15 January 2023.
- ↑ Lakoff, George (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books. pp. 569–583. ISBN 978-0-465-05674-3.
- 1 2 3
{{cite book}}: Empty citation (help) - 1 2 Huyen, Chip (October 18, 2019). "Evaluation Metrics for Language Modeling". The Gradient. Retrieved January 14, 2024.
- 1 2 A bot will complete this citation soon. Click here to jump the queue arXiv:.
- 1 2 3 A bot will complete this citation soon. Click here to jump the queue arXiv:.
- ↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (eds.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.
- ↑ "Prepare for truly useful large language models". Nature Biomedical Engineering (به انگلیسی). 7 (2): 85–86. 7 March 2023. doi:10.1038/s41551-023-01012-6. PMID 36882584.
- ↑ "Your job is (probably) safe from artificial intelligence". The Economist. 7 May 2023. Retrieved 18 June 2023.
- ↑ "Generative AI Could Raise Global GDP by 7%". Goldman Sachs. Retrieved 18 June 2023.
- ↑ Peng, Zhencan; Wang, Zhizhi; Deng, Dong (13 June 2023). "Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation" (PDF). Proceedings of the ACM on Management of Data. 1 (2): 1–18. doi:10.1145/3589324. Retrieved 2024-01-20. Citing Lee et al 2022.
- ↑ (Peng، Wang و Deng 2023).
- ↑ Alba, Davey (1 May 2023). "AI chatbots have been used to create dozens of news content farms". The Japan Times. Retrieved 18 June 2023.
- ↑ "Could chatbots help devise the next pandemic virus?". Science (به انگلیسی). 14 June 2023. doi:10.1126/science.adj2463.
- ↑ Stephen Council (1 Dec 2023). "How Googlers cracked an SF rival's tech model with a single word". SFGATE.
- ↑ Hubinger. "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training".
{{cite arxiv}}:|arxiv=required (help) - 1 2 Stokel-Walker, Chris (November 22, 2023). "ChatGPT Replicates Gender Bias in Recommendation Letters". Scientific American (به انگلیسی). Retrieved 2023-12-29.
- ↑ Cheng, Myra; Durmus, Esin; Jurafsky, Dan (2023-05-29), Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models, arXiv:2305.18189
- ↑ Heikkilä, Melissa (August 7, 2023). "AI language models are rife with different political biases". MIT Technology Review (به انگلیسی). Retrieved 2023-12-29.
- ↑ Ouyang et al., "Training language models to follow instructions with human feedback", 2022
- ↑ Brown et al., "Language Models are Few-Shot Learners", 2020