ترنسفورمر (یادگیری عمیق)

از ویکی‌پدیا، دانشنامهٔ آزاد
ترنسفورمرها (یادگیری ماشین)

ترنسفورمر یا مُبَدِّل، روشی است که به رایانه اجازه می‌دهد تا یک دنباله از نویسه‌ها را به دنباله دیگری از نویسه‌ها تبدیل کند. این روش می‌تواند برای مثال برای ترجمه متن از یک زبان به زبان دیگر استفاده شود. برای این کار، ترانسفورمور با استفاده از یادگیری ماشین بر روی مجموعه بزرگی از داده‌های نمونه آموزش داده می‌شود و سپس مدل آموزش‌دیده برای ترجمه استفاده می‌شود.

مبدل‌ها جزو معماری‌های یادگیری عمیق هستند. مبدل‌ها برای اولین بار در سال ۲۰۱۷ در کنفرانس پردازش اطلاعات عصبی معرفی شدند.

برخی دیگر از کاربردهای ترنسفورمرها عبارتند از:

  • تولید متن: ترنسفورمرها می‌توانند برای تولید متن‌های جدید، مانند نوشتن داستان یا شعر، استفاده شوند.
  • خلاصه‌سازی متن: ترنسفورمرها می‌توانند برای خلاصه‌سازی متن‌های طولانی و حفظ نکات کلیدی آنها استفاده شوند.

ترانسفورمر در مقایسه با معماری‌های حافظه بلندمدت کوتاه‌مدت (LSTM) کارایی بیشتری دارد و پایه و اساس بسیاری از مدل‌های یادگیری ماشین پیش‌آموزشی مانند BERT[۱] و GPT[۲] است. از مبدل‌ها همچنین به عنوان Evoformer در AlphaFold2 استفاده می‌شود.

ترنسفورمرها به دلیل موازی‌سازی آسان، سرعت و دقت بالا، به یکی از محبوب‌ترین مدل‌های یادگیری ماشین برای پردازش زبان طبیعی تبدیل شده‌اند. ترنسفورمرها در طیف وسیعی از کاربردهای دیگر مانند تشخیص گفتار، ترجمه ماشینی و پاسخ به سوالات نیز استفاده می‌شوند.

مانند شبکه عصبی بازگشتی (RNN)، ترنسفورمرها برای مدیریت داده‌های ورودی mdhmd، مانند زبان طبیعی، برای کارهایی مانند ترجمه و خلاصه متن طراحی شده‌اند. با این حال، برخلاف شبکه عصبی بازگشتیها، ترنسفورمرها لزوماً داده‌ها را به ترتیب پردازش نمی‌کنند. در عوض، مکانیسم توجه زمینه را برای هر موقعیتی در دنباله ورودی فراهم می‌کند. به عنوان مثال، اگر داده ورودی یک جمله زبان طبیعی باشد، ترانسفورمر نیازی به پردازش ابتدای جمله قبل از پایان ندارد. در عوض، زمینه ای را مشخص می‌کند که به هر کلمه در جمله معنا می‌بخشد. این ویژگی اجازه می‌دهد تا موازی سازی بیشتر از شبکه عصبی بازگشتیها باشد و بنابراین زمان آموزش را کاهش می‌دهد.[۳]

ترنسفورمرها در سال ۲۰۱۷ توسط تیمی در گوگل برینمعرفی شدند و به‌ طور فزاینده ای به عنوان بهترین مدل در حل مسائل NLP مورداستفاده قرار می‌گیرند و جایگزین مدل‌های شبکه عصبی بازگشتی مانند حافظه کوتاه‌مدت طولانی شدند. قابلیت موازی‌سازی آموزش در ترانسفورمرها امکان آموزش بر روی مجموعه داده‌های بزرگتر را می‌دهد که تا پیش از حضور آنها به سختی ممکن بود. این موضوع منجر به توسعه سیستم‌های از پیش آموزش‌دیده مانند برت (نمایش رمزگذار دوطرفه از ترنسفورمرها) و GPT (ترنسفورمر تولیدگر از پیش آموزش‌دیده)، که با مجموعه داده‌های زبانی بزرگ، مانند ویکی‌پدیا و Common Crawl آموزش دیده‌اند، و می‌توان آنها را برای کارهای خاص به‌خوبی تنظیم کرد.[۴]

پس زمینه[ویرایش]

مبدل

قبل از ظهور ترنسفورمرها، در بیشتر سیستم‌های NLP پیشرفته، نسخه‌های اولیه مکانیسم توجه را به شبکه‌های عصبی بازگشتی دروازه‌دار (مانند حافظه کوتاه-مدت طولانی و واحد بازگشتی دروازه‌ای (اختصاری GRU)) اضافه کرده بودند. در شبکه های عصبی بازگشتی، مجموعه داده ها با توجه به توالی آنها مورد پردازش قرار میگیرند. ترنسفورمرها بر اساس مکانیسم توجه، و بدون استفاده از ساختار شبکه عصبی بازگشتی ساخته شده‌اند، و این واقعیت را برجسته می‌کند که مکانیسم‌های توجه تنها با استفاده از "توجه" می‌توانند با عملکرد شبکه عصبی بازگشتیها رقابت کنند.

پردازش متوالی[ویرایش]

شبکه عصبی بازگشتیهای دروازه ای توکن‌ها را به صورت متوالی پردازش می‌کنند و یک بردار حالت را حفظ می‌کنند که حاوی نمایشی از داده‌هایی است که بعد از هر نشانه مشاهده می‌شود. برای پردازش علامت ام، مدل حالتی را که جمله را تا توکن نشان می‌دهد با اطلاعات نشانه جدید برای ایجاد یک حالت جدید، نشان دهنده جمله تا نشانه . از نظر تئوری، اطلاعات یک توکن می‌تواند به‌طور دلخواه در طول توالی منتشر شود، اگر در هر نقطه، وضعیت به رمزگذاری اطلاعات متنی در مورد نشانه ادامه دهد. در عمل، این مکانیسم ناقص است: مسئله گرادیان محوشونده وضعیت مدل را در پایان یک جمله طولانی بدون اطلاعات دقیق و قابل استخراج دربارهٔ نشانه‌های قبلی ترک می‌کند. وابستگی محاسبات توکن به نتایج محاسبات توکن‌های قبلی نیز موازی کردن محاسبات روی سخت‌افزار یادگیری عمیق مدرن را دشوار می‌کند. این می‌تواند آموزش شبکه عصبی بازگشتیها را ناکارآمد کند.

توجه[ویرایش]

این مشکلات با مکانیسم‌های توجه برطرف شد. مکانیسم‌های توجه به یک مدل اجازه می‌دهند از حالت در هر نقطه قبلی در طول دنباله استفاده کند. لایه توجه می‌تواند به همه حالت‌های قبلی دسترسی داشته باشد و آنها را با توجه به اندازه‌گیری مرتبط بودن اندازه‌گیری کند، و اطلاعات مرتبطی در مورد توکن‌های دور ارائه دهد.

مثال واضحی از ارزش توجه در ترجمه ماشینی است، که در آن زمینه برای تعیین معنای یک کلمه در جمله ضروری است. در سیستم ترجمه انگلیسی به فرانسوی، احتمالاً اولین کلمه خروجی فرانسوی به شدت به چند کلمه اول ورودی انگلیسی بستگی دارد. با این حال، در یک مدل کلاسیک حافظه طولانی کوتاه-مدت، برای تولید اولین کلمه خروجی فرانسوی، مدل فقط بردار حالت کلمه انگلیسی «آخرین» را به مدل داده می‌شود. از نظر تئوری، این بردار می‌تواند اطلاعات مربوط به کل جمله انگلیسی را رمزگذاری کند و تمام دانش لازم را به مدل بدهد. در عمل، این اطلاعات اغلب به خوبی توسط حافظه طولانی کوتاه-مدت حفظ می‌شود. یک مکانیسم توجه می‌تواند برای رفع این مشکل اضافه شود: رمزگشا به بردارهای وضعیت هر کلمه ورودی انگلیسی دسترسی دارد، نه فقط آخرین کلمه، و می‌تواند وزن‌های توجه را یاد بگیرد که میزان توجه به هر بردار حالت ورودی انگلیسی را تعیین می‌کند.

هنگامی که به شبکه عصبی بازگشتی اضافه می‌شود، مکانیسم‌های توجه عملکرد را افزایش می‌دهند. توسعه معماری ترانسفورمر نشان داد که مکانیسم‌های توجه به خودی خود قدرتمند هستند و پردازش متوالی مکرر داده‌ها برای دستیابی به دستاوردهای کیفیت شبکه عصبی بازگشتی با توجه ضروری نیست. ترنسفورمرها از مکانیزم توجه بدون شبکه عصبی بازگشتی استفاده می‌کنند، همه نشانه‌ها را همزمان پردازش می‌کنند و وزن توجه بین آنها را در لایه‌های متوالی محاسبه می‌کنند. از آنجایی که مکانیسم توجه فقط از اطلاعات مربوط به نشانه‌های دیگر از لایه‌های پایین‌تر استفاده می‌کند، می‌توان آن را برای همه نشانه‌ها به صورت موازی محاسبه کرد که منجر به بهبود سرعت تمرین می‌شود.

معماری[ویرایش]

معماری رمزگذار-رمزگشا[ویرایش]

مانند مدل‌های قبلی seq2seq، مدل اولیه ترانسفورمر از معماری «رمزگذار-رمزگشا» استفاده می‌کرد. رمزگذار از لایه‌های رمزگذاری تشکیل شده‌است که ورودی را به‌طور مکرر یکی پس از دیگری پردازش می‌کند، در حالی که رمزگشا شامل لایه‌های رمزگشایی است که همان کار را با خروجی رمزگذار انجام می‌دهد.

وظیفه هر لایه رمزگذار تولید رمزگذاری‌هایی است که حاوی اطلاعاتی در مورد اینکه کدام بخش از ورودی‌ها با یکدیگر مرتبط هستند. رمزگذاری‌های خود را به عنوان ورودی به لایه رمزگذار بعدی ارسال می‌کند. هر لایه رمزگشا برعکس عمل می‌کند، تمام رمزگذاری‌ها را می‌گیرد و از اطلاعات متنی آنها برای تولید یک دنباله خروجی استفاده می‌کند.

برای هر ورودی، توجه، ارتباط هر ورودی دیگر را می‌سنجد و از آنها برای تولید خروجی استفاده می‌کند.[۳][۵] هر لایه رمزگشا دارای مکانیزم توجه اضافی است که اطلاعات را از خروجی‌های رمزگشاهای قبلی، قبل از اینکه لایه رمزگشا اطلاعات را از رمزگذاری‌ها ترسیم کند، می‌گیرد. .

هر دو لایه رمزگذار و رمزگشا دارای یک شبکه عصبی پیش‌خور برای پردازش اضافی خروجی‌ها هستند و شامل اتصالات باقی‌مانده و مراحل عادی‌سازی لایه هستند.[۵]

توجه ضرب داخلی مقیاس شده[ویرایش]

بلوک‌های ساختمان ترانسفورمر واحدهای توجه نقطه-محصول مقیاس شده هستند. هنگامی که یک جمله به یک مدل ترانسفورمر منتقل می‌شود، وزن توجه بین هر نشانه به‌طور همزمان محاسبه می‌شود. واحد توجه، جاسازی‌هایی را برای هر نشانه در زمینه ایجاد می‌کند که حاوی اطلاعاتی در مورد خود نشانه به همراه ترکیب وزنی از نشانه‌های مرتبط دیگر است که هر کدام با وزن توجه خود وزن دارند.

برای هر واحد توجه، مدل ترانسفورمر سه ماتریس وزن را یادمی‌گیرد. وزن پرس و جو ، وزن کلید و وزن مقدار . برای هر نشانه ، ورودی جاسازی کلمه با هر یک از سه ماتریس وزن ضرب می‌شود تا یک بردار پرس و جو تولید شود ، یک بردار کلید ، و یک بردار مقدار . وزن توجه با استفاده از پرس و جو و بردارهای کلید محاسبه می‌شود: وزن توجه از نشانه تا نشانه حاصل ضرب نقطه ای بین و . وزن‌های توجه بر جذر ابعاد بردارهای کلیدی تقسیم می‌شوند، ، که گرادیان‌ها را در طول تمرین تثبیت می‌کند و از یک بیشینه هموار عبور می‌کند که وزن‌ها را عادی می‌کند. این واقعیت که و ماتریس‌های متفاوتی هستند باعث می‌شود توجه غیر متقارن باشد: اگر نشانه به نشانه (یعنی بزرگ است، این لزوماً به این معنی نیست که نشانه به نشانه (یعنی خواهد آمد k_i </math> می‌تواند کوچک باشد). خروجی واحد توجه برای نشانه مجموع وزنی بردارهای ارزش همه نشانه‌ها است که با وزن شده‌است، توجه از نشانه به هر نشانه.

محاسبه توجه برای همه نشانه‌ها را می‌توان به عنوان یک محاسبه ماتریس بزرگ با استفاده از بیشینه هموار بیان کرد که به دلیل بهینه‌سازی عملیات ماتریس محاسباتی که به سرعت عملیات ماتریس را محاسبه می‌کند برای آموزش مفید است. ماتریس‌های ، و به‌عنوان ماتریس‌هایی تعریف می‌شوند که در آن ردیف‌های بردار هستند. به ترتیب و و

توجه چند سر[ویرایش]

یک مجموعه از ماتریس‌های «سر توجه» نامیده می‌شود و هر لایه در یک مدل ترانسفورمر دارای سرهای توجه متعددی است. در حالی که هر سر توجه به نشانه‌های مربوط به هر نشانه توجه می‌کند، با سرهای توجه متعدد، مدل می‌تواند این کار را برای تعاریف مختلف «ارتباط» انجام دهد. علاوه بر این، میدان تأثیر نشان دهنده ارتباط می‌تواند به تدریج در لایه‌های متوالی گشاد شود. بسیاری از سرهای توجه ترانسفورمر روابط مرتبطی را رمزگذاری می‌کنند که برای انسان معنادار است. برای مثال، سرهای توجه می‌توانند بیشتر به کلمه بعدی توجه کنند، در حالی که دیگران عمدتاً از افعال به مفعول مستقیم خود توجه می‌کنند.[۶] محاسبات برای هر سر توجه را می‌توان به صورت موازی انجام داد، که امکان پردازش سریع را فراهم می‌کند. خروجی‌های لایه توجه به هم متصل می‌شوند تا به لایه‌های شبکه عصبی پیش‌خور منتقل شوند.

رمزگذار[ویرایش]

هر رمزگذار از دو جزء اصلی تشکیل شده‌است: یک مکانیسم توجه به خود و یک شبکه عصبی پیشخور. مکانیسم توجه به خود کدهای ورودی را از رمزگذار قبلی می‌پذیرد و ارتباط آنها را با یکدیگر برای تولید کدهای خروجی می‌سنجد. شبکه عصبی پیشخور بیشتر هر کدگذاری خروجی را به صورت جداگانه پردازش می‌کند. این کدهای خروجی سپس به رمزگذار بعدی به عنوان ورودی آن و همچنین به رمزگشاها ارسال می‌شود.

رمزگذار اول اطلاعات موقعیتی و جاسازی‌ها دنباله ورودی را به‌جای رمزگذاری به عنوان ورودی خود می‌گیرد. اطلاعات موقعیت برای ترانسفورمر برای استفاده از ترتیب ترتیب ضروری است، زیرا هیچ بخش دیگری از ترانسفورمر از این استفاده نمی‌کند.[۳]

رمزگشا[ویرایش]

هر رمزگشا از سه جزء اصلی تشکیل شده‌است: مکانیسم توجه به خود، مکانیسم توجه روی رمزگذاری‌ها و شبکه عصبی پیش‌خور. رمزگشا به روشی مشابه رمزگذار عمل می‌کند، اما مکانیسم توجه اضافی درج شده‌است که در عوض اطلاعات مربوطه را از رمزگذاری‌های تولید شده توسط رمزگذارها می‌گیرد.[۳][۵]

مانند رمزگذار اول، رمزگشای اول به جای رمزگذاری، اطلاعات موقعیتی و جاسازی‌های دنباله خروجی را به عنوان ورودی خود می‌گیرد. ترانسفورمر نباید از خروجی فعلی یا آینده برای پیش‌بینی یک خروجی استفاده کند، بنابراین دنباله خروجی باید تا حدی پوشانده شود تا از این جریان اطلاعات معکوس جلوگیری شود.[۳]آخرین رمزگشا با یک تبدیل خطی و لایه بیشینه هموار، برای تولید احتمالات خروجی از روی واژگان.

جایگزین‌ها[ویرایش]

آموزش معماری‌های مبتنی بر ترانسفورمر می‌تواند گران باشد، به خصوص برای ورودی‌های طولانی.[۷] معماری‌های جایگزین شامل Reformer است (که بار محاسباتی را از به ) کاهش می‌دهد. یا مدل‌هایی مانند ETC/ BigBird (که می‌تواند آن را به کاهش دهد)[۵] که در آن طول توالی. این کار با استفاده از درهم‌سازی حساس به محلی (به انگلیسی: locality-sensitive hashing) و لایه‌های برگشت‌پذیر انجام می‌شود.[۵] یک معیار برای مقایسه معماری ترانسفورمر در اواخر سال ۲۰۲۰ معرفی شد.[۸]

آموزش[ویرایش]

ترنسفورمرها معمولاً تحت یادگیری نیمه‌نظارتی شامل یادگیری بی‌نظارت پیش آموزش و سپس تنظیم دقیق نظارت شده قرار می‌گیرند. به دلیل در دسترس بودن محدود داده‌های آموزشی برچسب‌گذاری‌شده، معمولاً پیش‌آموزش بر روی مجموعه داده‌های بزرگ‌تری نسبت به تنظیم دقیق انجام می‌شود. وظایف پیش‌آموزشی و تنظیم دقیق معمولاً عبارتند از:

برنامه‌های کاربردی[ویرایش]

ترانسفورمر موفقیت زیادی در پردازش زبان طبیعی (NLP) داشته‌است، به عنوان مثال وظایف ترجمه ماشینی و سری‌های زمانی پیش‌بینی[۵] بسیاری از مدل‌های از پیش آموزش دیده مانند GPT-2، GPT-3، برت (مدل زبانی), XLNet و RoBERTa توانایی ترنسفورمرها را برای انجام طیف گسترده‌ای از وظایف مرتبط با NLP نشان می‌دهند و پتانسیل یافتن برنامه‌های کاربردی در دنیای واقعی را دارند[۱۱][۱۲][۵]

اینها ممکن است شامل موارد زیر باشد:

علاوه بر برنامه های کاربردی NLP، در زمینه های دیگری مانند بینایی کامپیوتر یا برنامه های تاشوندگی پروتئین (مانند AlphaFold ) نیز موفق بوده است.

در سال ۲۰۲۰، نشان داده شد که معماری ترانسفورمر، به‌طور خاص GPT-2، می‌تواند برای بازی شطرنج تنظیم شود[۱۳] ترنسفورمرها برای پردازش تصویر با نتایج قابل رقابت با شبکه عصبی پیچشی به کار رفته‌اند.[۵]

پیاده‌سازی‌ها[ویرایش]

مدل ترانسفورمر در چارچوب‌های یادگیری عمیق استاندارد مانند تنسورفلو و پای‌تورچ پیاده‌سازی شده‌است.

ترنسفورمر یک کتابخانه است که توسط هاگینگ فیس (به فارسی: شکلک خندان) تولید شده است و معماری‌های مبتنی بر ترانسفورمر و مدل‌های از پیش آموزش‌دیده را ارائه می‌دهد.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. Bidirectional Encoder Representations from Transformers
  2. Generative Pretrained Transformer
  3. ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ ۳٫۴ خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام :0 وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
  4. Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
  5. ۵٫۰ ۵٫۱ ۵٫۲ ۵٫۳ ۵٫۴ ۵٫۵ ۵٫۶ ۵٫۷ ۵٫۸ https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
  6. Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (August 2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Florence, Italy: Association for Computational Linguistics: 276–286. doi:10.18653/v1/W19-4828.
  7. Kitaev, Nikita; Kaiser, Łukasz; Levskaya, Anselm (2020). "Reformer: The Efficient Transformer". arXiv:2001.04451 [cs.LG].
  8. Tay, Yi; Dehghani, Mostafa; Abnar, Samira; Shen, Yikang; Bahri, Dara; Pham, Philip; Rao, Jinfeng; Yang, Liu; Ruder, Sebastian; Metzler, Donald (2020-11-08). "Long Range Arena: A Benchmark for Efficient Transformers". arXiv:2011.04006 [cs.LG].
  9. ۹٫۰ ۹٫۱ ۹٫۲ https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
  10. ۱۰٫۰ ۱۰٫۱ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel (2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 353–355. arXiv:1804.07461. doi:10.18653/v1/w18-5446. S2CID 5034059.
  11. Yang, Zhilin Dai, Zihang Yang, Yiming Carbonell, Jaime Salakhutdinov, Ruslan Le, Quoc V. (2019-06-19). XLNet: Generalized Autoregressive Pretraining for Language Understanding. OCLC 1106350082.{{cite book}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)
  12. Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel (2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 353–355. arXiv:1804.07461. doi:10.18653/v1/w18-5446. S2CID 5034059.
  13. Noever, David; Ciolino, Matt; Kalin, Josh (2020-08-21). "The Chess Transformer: Mastering Play using Generative Language Models". arXiv:2008.04057 [cs.AI].

ادامه مطلب[ویرایش]

– Discussion of the effect of a transformer layer as equivalent to a Hopfield update, bringing the input closer to one of the fixed points (representable patterns) of a continuous-valued Hopfield network

پیوند به بیرون[ویرایش]