پرش به محتوا

ترجمه ماشینی عصبی

از ویکی‌پدیا، دانشنامهٔ آزاد

ترجمه ماشینی عصبی (NMT) رویکردی در ترجمه ماشینی است که از یک شبکه عصبی مصنوعی برای پیش‌بینی احتمال یک توالی از کلمات استفاده می‌کند و معمولاً جملات کامل را در یک مدل یکپارچه پردازش می‌کند.

این روش امروزه رویکرد غالب محسوب می‌شود[۱]:293[۲]:۱ و می‌تواند ترجمه‌هایی با کیفیتی نزدیک به ترجمه انسانی ارائه دهد، به‌ویژه هنگام ترجمه بین زبان‌های دارای منابع غنی و تحت شرایط خاص.[۳] با این حال، همچنان چالش‌هایی وجود دارد، به‌ویژه برای زبان‌هایی که داده‌های باکیفیت کمتری در دسترس دارند[۴][۵][۱]:۲۹۳ و همچنین در تغییر دامنه بین داده‌هایی که سیستم بر اساس آن آموزش دیده و متونی که باید ترجمه کند.[۱]:۲۹۳ سیستم‌های NMT همچنین تمایل دارند ترجمه‌هایی نسبتاً تحت‌اللفظی ارائه دهند.[۵]

مرور کلی

[ویرایش]

در وظیفه ترجمه، یک جمله (شامل توکن ) در زبان مبدأ باید به یک جمله (شامل توکن ) در زبان مقصد ترجمه شود. توکن‌های مبدأ و مقصد (که در ساده‌ترین حالت برای یکدیگر استفاده می‌شوند) به‌صورت بردار نمایش داده می‌شوند تا بتوان آن‌ها را به‌صورت ریاضی پردازش کرد.

مدل‌های NMT یک احتمال [۲]:5[۶]:۱ را به ترجمه‌های احتمالی y اختصاص می‌دهند و سپس زیرمجموعه‌ای از ترجمه‌های ممکن را برای یافتن ترجمه‌ای با بالاترین احتمال جستجو می‌کنند. بیشتر مدل‌های NMT خودبازگشتی هستند: آن‌ها احتمال هر توکن مقصد را به‌عنوان تابعی از جمله مبدأ و توکن‌های مقصد پیش‌بینی‌شده قبلی مدل‌سازی می‌کنند. احتمال کل ترجمه سپس حاصل‌ضرب احتمالات توکن‌های پیش‌بینی‌شده فردی خواهد بود:[۲]:5[۶]:۲

مدل‌های NMT در نحوه مدل‌سازی این تابع تفاوت دارند، اما بیشتر آن‌ها از نوعی معماری رمزگذار-رمزگشا استفاده می‌کنند:[۶]:2[۷]:۴۶۹ ابتدا یک شبکه رمزگذار برای پردازش و تبدیل آن به یک بردار یا ماتریس نمایشی از جمله مبدأ به کار گرفته می‌شود. سپس یک شبکه رمزگشا استفاده می‌شود که معمولاً یک کلمه مقصد را در هر مرحله تولید می‌کند، با در نظر گرفتن نمایش مبدأ و توکن‌هایی که قبلاً تولید شده‌اند.

به محض اینکه رمزگشا یک توکن ویژه پایان جمله تولید کند، فرایند رمزگشایی به پایان می‌رسد. از آنجا که رمزگشا به خروجی‌های قبلی خود ارجاع می‌دهد، این روش رمزگشایی خودبازگشتی نامیده می‌شود.

تاریخچه

[ویرایش]

رویکردهای اولیه

[ویرایش]

در سال ۱۹۸۷، رابرت بی. آلن استفاده از شبکه‌های عصبی پیش‌خور را برای ترجمه جملات انگلیسی تولیدشده خودکار با واژگان محدود ۳۱ کلمه‌ای به اسپانیایی نشان داد. در این آزمایش، اندازه لایه‌های ورودی و خروجی شبکه به‌گونه‌ای انتخاب شد که فقط برای طولانی‌ترین جملات در زبان مبدأ و مقصد کافی باشد، زیرا شبکه هیچ مکانیزمی برای رمزگذاری توالی‌هایی با طول دلخواه در یک نمایش با اندازه ثابت نداشت. در خلاصه‌اش، آلن همچنین به امکان استفاده از مدل‌های خودهمبسته اشاره کرد، یکی برای رمزگذاری مبدأ و دیگری برای رمزگشایی مقصد.[۸]

لونی کریسمن در سال ۱۹۹۱ بر اساس کار آلن، شبکه‌های حافظه خودهمبسته بازگشتی (RAAM) جداگانه‌ای را آموزش داد که توسط جردن بی. پولاک توسعه یافته بود[۹]، برای زبان مبدأ و مقصد. هر یک از شبکه‌های RAAM آموزش داده شدند تا یک جمله با طول دلخواه را به یک نمایش پنهان با اندازه ثابت رمزگذاری کنند و سپس جمله اصلی را از آن نمایش رمزگشایی کنند. علاوه بر این، دو شبکه همچنین آموزش داده شدند تا نمایش پنهان خود را به اشتراک بگذارند؛ به این ترتیب، رمزگذار مبدأ می‌تواند نمایشی تولید کند که رمزگشای مقصد قادر به رمزگشایی آن باشد.[۱۰] فورکادا و نکو در سال ۱۹۹۷ این روش را ساده کردند تا مستقیماً یک رمزگذار مبدأ و یک رمزگشا برای مقصد را در چیزی که آن را حافظه ناهمبسته بازگشتی نامیدند، آموزش دهند.[۱۱]

همچنین در سال ۱۹۹۷، کاستانیو و کاساکوبرتا از شبکه عصبی بازگشتی المان در یک وظیفه دیگر ترجمه ماشینی با واژگان و پیچیدگی بسیار محدود استفاده کردند.[۱۲][۱۳]

با وجود شباهت این رویکردهای اولیه به NMT مدرن، منابع محاسباتی آن زمان برای پردازش مجموعه داده‌هایی که به اندازه کافی بزرگ باشند تا پیچیدگی محاسباتی مسئله ترجمه ماشینی در متون واقعی را مدیریت کنند، کافی نبود.[۱]:39[۱۴]:۲ در عوض، روش‌های دیگر مانند ترجمه ماشینی آماری در دهه‌های ۱۹۹۰ و ۲۰۰۰ به عنوان فناوری پیشرو مطرح شدند.

رویکردهای ترکیبی

[ویرایش]

در دوره‌ای که ترجمه ماشینی آماری رایج بود، برخی پژوهش‌ها از روش‌های عصبی برای جایگزینی بخش‌های مختلف در ترجمه ماشینی آماری استفاده کردند، در حالی که همچنان از رویکرد خطی-لگاریتمی برای یکپارچه‌سازی آن‌ها بهره می‌بردند.[۱]:39[۲]:۱

به‌عنوان مثال، در پژوهش‌های مختلف همراه با سایر محققان، هولگر شوئنک مدل معمول مدل زبانی n-gram را با یک مدل عصبی جایگزین کرد[۱۵][۱۶] و احتمال ترجمه عبارات را با استفاده از یک شبکه پیش‌خور تخمین زد.[۱۷]

سک۲سک

[ویرایش]

در سال‌های ۲۰۱۳ و ۲۰۱۴، ترجمه ماشینی عصبی انتها به انتها با استفاده از روش‌های جدید به موفقیت چشمگیری دست یافت. کالچبرنر و بلانسوم از یک شبکه عصبی پیچشی (CNN) برای رمزگذاری مبدأ استفاده کردند[۱۸]، در حالی که چو و همکاران و سوتسکِوِر و همکاران از یک شبکه عصبی بازگشتی (RNN) بهره بردند.[۱۹][۲۰] هر سه مدل از یک RNN که بر اساس یک رمزگذاری ثابت از مبدأ تنظیم شده بود، به‌عنوان رمزگشا برای تولید ترجمه استفاده کردند.

با این حال، این مدل‌ها در ترجمه جملات طولانی عملکرد ضعیفی داشتند.[۲۱]:107[۱]:39[۲]:۷ این مشکل زمانی برطرف شد که باهداناو و همکاران مکانیزم توجه را به معماری رمزگذار-رمزگشا معرفی کردند: در هر مرحله رمزگشایی، وضعیت رمزگشا برای محاسبه یک نمایش از مبدأ که بر بخش‌های مختلف آن تمرکز دارد، استفاده می‌شود و این نمایش در محاسبه احتمالات توکن بعدی به کار می‌رود.[۲۲]

بر اساس این معماری‌های مبتنی بر RNN، بایدو در سال ۲۰۱۵ اولین «سیستم ترجمه ماشینی عصبی در مقیاس بزرگ» را راه‌اندازی کرد[۲۳]:۱۴۴، و در سال ۲۰۱۶ ترجمه ماشینی عصبی گوگل معرفی شد.[۲۳]:144[۲۴] از آن سال به بعد، مدل‌های عصبی به انتخاب غالب در کنفرانس اصلی ترجمه ماشینی، یعنی کارگاه ترجمه ماشینی آماری، تبدیل شدند.[۲۵]

گهرینگ و همکاران در سال ۲۰۱۷ یک رمزگذار CNN را با مکانیزم توجه ترکیب کردند، که وابستگی‌های بلندمدت در مبدأ را بهتر از رویکردهای قبلی مدیریت می‌کرد و همچنین سرعت ترجمه را افزایش داد، زیرا رمزگذار CNN قابلیت پردازش موازی دارد، در حالی که رمزگذار RNN به دلیل ماهیت بازگشتی خود باید هر توکن را به‌صورت جداگانه رمزگذاری کند.[۲۶]:230[۲۷][۲۸][۲۹]

ترانسفورمر

[ویرایش]

یکی از معماری‌های شبکه‌ای که امکان پردازش موازی را فراهم می‌کند، ترانسفورمر است که توسط واسوانی و همکاران در سال ۲۰۱۷ معرفی شد.[۳۰] مانند مدل‌های قبلی، ترانسفورمر همچنان از مکانیزم توجه برای وزن‌دهی خروجی رمزگذار در مراحل رمزگشایی استفاده می‌کند. با این حال، شبکه‌های رمزگذار و رمزگشای ترانسفورمر خودشان نیز بر اساس توجه طراحی شده‌اند، نه بازگشت یا پیچش: هر لایه خروجی لایه قبلی را در فرآیندی به نام توجه به خود وزن‌دهی و تبدیل می‌کند.

از آنجا که مکانیزم توجه هیچ درکی از ترتیب توکن‌ها ندارد، اما ترتیب کلمات در یک جمله اهمیت دارد، توکن‌های تعبیه‌شده با یک رمزگذاری صریح موقعیت آن‌ها در جمله ترکیب می‌شوند.[۲]:15[۶]:۷ از آنجا که هم رمزگذار و هم رمزگشای ترانسفورمر فاقد عناصر بازگشتی هستند، هر دو می‌توانند در طول آموزش به‌صورت موازی پردازش شوند. با این حال، رمزگشای اصلی ترانسفورمر همچنان خودبازگشتی است، به این معنی که رمزگشایی باید در زمان استنتاج به‌صورت توکن‌به‌توکن انجام شود.

مدل ترانسفورمر به‌سرعت به انتخاب غالب برای سیستم‌های ترجمه ماشینی تبدیل شد[۲]:۴۴ و همچنان در سال‌های ۲۰۲۲ و ۲۰۲۳ پرکاربردترین معماری در کارگاه ترجمه ماشینی آماری بود.[۳۱]:35–40[۳۲]:۲۸–۳۱

معمولاً وزن‌های مدل‌های NMT به‌صورت تصادفی مقداردهی اولیه می‌شوند و سپس با آموزش روی مجموعه داده‌های موازی یادگرفته می‌شوند. با این حال، از آنجا که استفاده از مدل‌های زبانی بزرگ (LLMs) مانند BERT که روی حجم زیادی از داده‌های تک‌زبانه از پیش آموزش دیده‌اند، به‌عنوان نقطه شروع برای یادگیری وظایف دیگر در NLP بسیار موفق بوده است، این پارادایم در NMT نیز رایج‌تر شده است. این روش به‌ویژه برای زبان‌های کم‌منبع که مجموعه داده‌های موازی بزرگی ندارند، مفید است.[۴]:۶۸۹–۶۹۰ نمونه‌ای از این رویکرد مدل mBART است که ابتدا یک ترانسفورمر را روی یک مجموعه داده چندزبانه برای بازیابی توکن‌های ماسک‌شده در جملات آموزش می‌دهد و سپس رمزگذار خودکار حاصل را برای وظیفه ترجمه ریزتنظیم می‌کند.[۳۳]

مدل‌های سازنده LLM

[ویرایش]

به‌جای ریزتنظیم یک مدل زبانی از پیش آموزش‌دیده برای وظیفه ترجمه، مدل سازنده به‌اندازه کافی بزرگ می‌توانند مستقیماً برای ترجمه یک جمله به زبان موردنظر فراخوانی شوند. این رویکرد نخستین بار در سال ۲۰۲۳ توسط هندی و همکاران برای جی‌پی‌تی ۳.۵ به‌طور جامع آزمایش و ارزیابی شد. آن‌ها دریافتند که «سیستم‌های GPT می‌توانند خروجی‌های ترجمه‌ای بسیار روان و رقابتی تولید کنند، حتی در تنظیم zero-shot، به‌ویژه برای ترجمه‌های زبان‌های دارای منابع غنی».[۳۴]:۲۲

WMT23 همین رویکرد را (اما با استفاده از [[جی‌پی‌تی ۴ ]]) ارزیابی کرد و دریافت که این مدل در ترجمه به زبان انگلیسی با فناوری‌های پیشرفته هم‌سطح است، اما در ترجمه به زبان‌های کم‌منبع عملکرد ضعیف‌تری دارد.[۳۲]:۱۶–۱۷ این مسئله منطقی به نظر می‌رسد، زیرا مدل‌های GPT عمدتاً بر روی متون انگلیسی آموزش دیده‌اند.[۳۵]

مقایسه با ترجمه ماشینی آماری

[ویرایش]

NMT چندین چالش موجود در ترجمه ماشینی آماری (SMT) را برطرف کرده است:

  • اتکای کامل NMT به نمایش پیوسته توکن‌ها، مشکلات ناشی از کمبود داده‌های مربوط به کلمات یا عبارات نادر را برطرف کرد. مدل‌ها توانستند به‌طور مؤثرتری تعمیم دهند.[۱۸]:1[۳۶]:۹۰۰–۹۰۱
  • طول محدود n-gram در مدل‌های زبانی SMT باعث از دست رفتن بخشی از زمینه معنایی می‌شد. سیستم‌های NMT این مشکل را با حذف محدودیت سخت‌گیرانه در تعداد توکن‌ها و استفاده از مکانیزم توجه برای انتخاب توکن‌های مهم در تولید توکن بعدی برطرف کردند.[۳۶]:۹۰۰–۹۰۱
  • آموزش انتها به انتهای یک مدل واحد، عملکرد ترجمه را بهبود بخشید و همچنین کل فرایند را ساده‌تر کرد.[نیازمند منبع]
  • مدل‌های عظیم n-gram (تا ۷-gram) در SMT به مقدار زیادی حافظه نیاز داشتند،[۳۷]:۸۸ در حالی که NMT به حافظه کمتری نیاز دارد.

روش آموزش

[ویرایش]

تابع زیان آنتروپی متقاطع

[ویرایش]

مدل‌های NMT معمولاً برای بیشینه‌سازی احتمال مشاهده داده‌های آموزشی آموزش داده می‌شوند. به‌عبارت دیگر، برای مجموعه‌ای از جملات مبدأ و جملات مقصد متناظر ، هدف یافتن پارامترهای مدل است که مجموع احتمال هر جمله مقصد در داده‌های آموزشی را با توجه به جمله مبدأ متناظر بیشینه کند:

گسترش به سطح توکن به‌صورت زیر خواهد بود:

از آنجا که تنها بیشینه مقدار موردنظر است، می‌توان به‌جای آن بیشینه لگاریتم را جستجو کرد (که مزیت آن جلوگیری از خطای محاسباتی ناشی از مقادیر بسیار کوچک است).

با استفاده از این واقعیت که لگاریتم حاصل‌ضرب برابر با مجموع لگاریتم‌های عوامل آن است و تغییر علامت، تابع زیان کلاسیک آنتروپی متقاطع حاصل می‌شود:

در عمل، این کمینه‌سازی به‌صورت تکراری بر روی زیرمجموعه‌های کوچک (مینی‌بچ‌ها) از مجموعه آموزشی با استفاده از گرادیان نزولی تصادفی انجام می‌شود.

اجبار تدریس

[ویرایش]

در زمان استنتاج، رمزگشاهای خودبازگشتی از توکن تولیدشده در مرحله قبلی به‌عنوان ورودی استفاده می‌کنند. با این حال، واژگان توکن‌های مقصد معمولاً بسیار بزرگ است؛ بنابراین، در ابتدای مرحله آموزش، مدل‌های آموزش‌ندیده تقریباً همیشه توکن اشتباه را انتخاب می‌کنند؛ و مراحل بعدی باید با ورودی‌های اشتباه کار کنند که باعث کاهش سرعت آموزش می‌شود.

به‌جای این روش، در مرحله آموزش از اجبار تدریس استفاده می‌شود: مدل (که در این استعاره نقش «دانش‌آموز» را دارد) همیشه توکن‌های صحیح قبلی را به‌عنوان ورودی برای تولید توکن بعدی دریافت می‌کند، صرف‌نظر از آنچه در مرحله قبلی پیش‌بینی کرده است.

ترجمه با مهندسی پرسش در مدل‌های زبانی بزرگ

[ویرایش]

همان‌طور که در بخش تاریخچه توضیح داده شد، به‌جای استفاده از یک سیستم NMT که بر روی متن‌های موازی آموزش دیده است، می‌توان یک مدل زبانی سازنده را برای ترجمه متن فراخوانی کرد. این مدل‌ها از سیستم‌های NMT مبتنی بر رمزگذار-رمزگشا در چندین جنبه متفاوت هستند:[۳۴]:1

  • مدل‌های زبانی سازنده برای وظیفه ترجمه آموزش ندیده‌اند، چه برسد به مجموعه داده‌های موازی. در عوض، آن‌ها بر روی یک هدف مدل‌سازی زبانی آموزش داده می‌شوند، مانند پیش‌بینی کلمه بعدی در یک توالی که از یک مجموعه داده بزرگ متون استخراج شده است. این مجموعه داده می‌تواند شامل اسناد به زبان‌های مختلف باشد، اما در عمل عمدتاً شامل متون انگلیسی است.[۳۵] پس از این مرحله پیش‌آموزش، آن‌ها برای یک وظیفه دیگر ریزتنظیم می‌شوند، که معمولاً شامل پیروی از دستورالعمل‌ها است.[۳۸]
  • از آنجا که این مدل‌ها برای ترجمه آموزش ندیده‌اند، معماری رمزگذار-رمزگشا ندارند. در عوض، فقط شامل رمزگشای ترانسفورمر هستند.
  • برای رقابت در وظیفه ترجمه ماشینی، مدل‌های زبانی بزرگ باید بسیار بزرگ‌تر از سایر سیستم‌های NMT باشند. به‌عنوان مثال، GPT-3 دارای ۱۷۵ میلیارد پارامتر است،[۳۹]:5 در حالی که mBART دارای ۶۸۰ میلیون[۳۳]:727 و ترانسفورمر بزرگ اصلی تنها ۲۱۳ میلیون پارامتر دارد.[۳۰]:9 این بدان معناست که آموزش و استفاده از آن‌ها از نظر محاسباتی هزینه‌برتر است.

یک مدل زبانی سازنده را می‌توان به‌صورت zero-shot فراخوانی کرد، یعنی فقط از آن خواسته شود که یک متن را به زبان دیگر ترجمه کند بدون ارائه مثال‌های بیشتر در درخواست. یا می‌توان یک یا چند نمونه ترجمه را در درخواست گنجاند و سپس از مدل خواست که متن موردنظر را ترجمه کند. این روش به‌ترتیب یادگیری تک‌نمونه‌ای یا چندنمونه‌ای نامیده می‌شود. به‌عنوان مثال، درخواست‌های زیر توسط هندی و همکاران (۲۰۲۳) برای ترجمه بدون نمونه و تک‌نمونه‌ای استفاده شده‌اند:[۳۴]

### این جمله را از [زبان مبدأ] به [زبان مقصد] ترجمه کن، مبدأ:
[جمله مبدأ]
### مقصد:
این را به ۱. [زبان مقصد] ترجمه کن:
[نمونه ۱ مبدأ]
۱. [نمونه ۱ ترجمه]
این را به ۱. [زبان مقصد] ترجمه کن:
[ورودی]
۱.

جستارهای وابسته

[ویرایش]

منابع

[ویرایش]
  1. ۱٫۰ ۱٫۱ ۱٫۲ ۱٫۳ ۱٫۴ ۱٫۵ Koehn, Philipp (2020). Neural Machine Translation. Cambridge University Press.
  2. ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ ۲٫۴ ۲٫۵ ۲٫۶ Stahlberg, Felix (2020-09-29). "Neural Machine Translation: A Review and Survey". arXiv:1912.02047v2 [cs.CL].
  3. Popel, Martin; Tomkova, Marketa; Tomek, Jakub; Kaiser, Łukasz; Uszkoreit, Jakob; Bojar, Ondřej; Žabokrtský, Zdeněk (2020-09-01). "Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals". Nature Communications. 11 (1): 4381. Bibcode:2020NatCo..11.4381P. doi:10.1038/s41467-020-18073-9. hdl:11346/BIBLIO@id=368112263610994118. ISSN 2041-1723. PMC 7463233. PMID 32873773.
  4. ۴٫۰ ۴٫۱ Haddow, Barry; Bawden, Rachel; Miceli Barone, Antonio Valerio; Helcl, Jindřich; Birch, Alexandra (2022). "Survey of Low-Resource Machine Translation". Computational Linguistics. 48 (3): 673–732. arXiv:2109.00486. doi:10.1162/coli_a_00446.
  5. ۵٫۰ ۵٫۱ Poibeau, Thierry (2022). Calzolari, Nicoletta; Béchet, Frédéric; Blache, Philippe; Choukri, Khalid; Cieri, Christopher; Declerck, Thierry; Goggi, Sara; Isahara, Hitoshi; Maegaard, Bente (eds.). "On "Human Parity" and "Super Human Performance" in Machine Translation Evaluation". Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association: 6018–6023.
  6. ۶٫۰ ۶٫۱ ۶٫۲ ۶٫۳ Tan, Zhixing; Wang, Shuo; Yang, Zonghan; Chen, Gang; Huang, Xuancheng; Sun, Maosong; Liu, Yang (2020-12-31). "Neural Machine Translation: A Review of Methods, Resources, and Tools". arXiv:2012.15515 [cs.CL].
  7. Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). "12.4.5 Neural Machine Translation". Deep Learning. MIT Press. pp. 468–471. Retrieved 2022-12-29.
  8. Allen, Robert B. (1987). Several Studies on Natural Language and Back-Propagation. IEEE First International Conference on Neural Networks. Vol. 2. San Diego. pp. 335–341. Retrieved 2022-12-30.
  9. Chrisman, Lonnie (1991). "Learning Recursive Distributed Representations for Holistic Computation". Connection Science. 3 (4): 345–366. doi:10.1080/09540099108946592. ISSN 0954-0091.
  10. Pollack, Jordan B. (1990). "Recursive distributed representations". Artificial Intelligence. 46 (1): 77–105. doi:10.1016/0004-3702(90)90005-K.
  11. Forcada, Mikel L.; Ñeco, Ramón P. (1997). "Recursive hetero-associative memories for translation". Biological and Artificial Computation: From Neuroscience to Technology. Lecture Notes in Computer Science. Vol. 1240. pp. 453–462. doi:10.1007/BFb0032504. ISBN 978-3-540-63047-0.
  12. Castaño, Asunción; Casacuberta, Francisco (1997). A connectionist approach to machine translation. 5th European Conference on Speech Communication and Technology (Eurospeech 1997). Rhodes, Greece. pp. 91–94. doi:10.21437/Eurospeech.1997-50.
  13. Castaño, Asunción; Casacuberta, Francisco; Vidal, Enrique (1997-07-23). Machine translation using neural networks and finite-state models. Proceedings of the 7th Conference on Theoretical and Methodological Issues in Machine Translation of Natural Languages. St John's College, Santa Fe.
  14. Yang, Shuoheng; Wang, Yuxin; Chu, Xiaowen (2020-02-18). "A Survey of Deep Learning Techniques for Neural Machine Translation". arXiv:2002.07526 [cs.CL].
  15. Schwenk, Holger; Dechelotte, Daniel; Gauvain, Jean-Luc (2006). Continuous Space Language Models for Statistical Machine Translation. Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions. Sydney, Australia. pp. 723–730.
  16. Schwenk, Holger (2007). "Contiuous space language models". Computer Speech and Language. 3 (21): 492–518. doi:10.1016/j.csl.2006.09.003.
  17. Schwenk, Holger (2012). Continuous Space Translation Models for Phrase-Based Statistical Machine Translation. Proceedings of COLING 2012: Posters. Mumbai, India. pp. 1071–1080.
  18. ۱۸٫۰ ۱۸٫۱ Kalchbrenner, Nal; Blunsom, Philip (2013). "Recurrent Continuous Translation Models". Proceedings of the Association for Computational Linguistics: 1700–1709.
  19. Cho, Kyunghyun; van Merriënboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics. pp. 1724–1734. arXiv:1406.1078. doi:10.3115/v1/D14-1179.
  20. Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). "Sequence to Sequence Learning with Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 27. arXiv:1409.3215.
  21. Cho, Kyunghyun; van Merriënboer, Bart; Bahdanau, Dzmitry; Bengio, Yoshua (2014). On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. Doha, Qatar: Association for Computational Linguistics. pp. 103–111. arXiv:1409.1259. doi:10.3115/v1/W14-4012.
  22. Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
  23. ۲۳٫۰ ۲۳٫۱ Wang, Haifeng; Wu, Hua; He, Zhongjun; Huang, Liang; Church, Kenneth Ward (2022-11-01). "Progress in Machine Translation". Engineering (به انگلیسی). 18: 143–153. Bibcode:2022Engin..18..143W. doi:10.1016/j.eng.2021.03.023.
  24. Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz (2016). "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation". arXiv:1609.08144 [cs.CL].
  25. Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (2016). "Findings of the 2016 Conference on Machine Translation" (PDF). ACL 2016 First Conference on Machine Translation (WMT16). The Association for Computational Linguistics: 131–198. Archived from the original (PDF) on 2018-01-27. Retrieved 2018-01-27.
  26. Gehring, Jonas; Auli, Michael; Grangier, David; Dauphin, Yann (2017). A Convolutional Encoder Model for Neural Machine Translation. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver, Canada: Association for Computational Linguistics. pp. 123–135. arXiv:1611.02344. doi:10.18653/v1/P17-1012.
  27. Coldewey, Devin (2017-08-29). "DeepL schools other online translators with clever machine learning". TechCrunch. Retrieved 2023-12-26.
  28. Leloup, Damien; Larousserie, David (2022-08-29). "Quel est le meilleur service de traduction en ligne?". Le Monde. Retrieved 2023-01-10.
  29. Pakalski, Ingo (2017-08-29). "DeepL im Hands On: Neues Tool übersetzt viel besser als Google und Microsoft". Golem. Retrieved 2023-01-10.
  30. ۳۰٫۰ ۳۰٫۱ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Gomez, Aidan N.; Kaiser, Łukasz; Polosukhin, Illia (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017). pp. 5998–6008.
  31. Kocmi, Tom; Bawden, Rachel; Bojar, Ondřej; Dvorkovich, Anton; Federmann, Christian; Fishel, Mark; Gowda, Thamme; Graham, Yvette; Grundkiewicz, Roman; Haddow, Barry; Knowles, Rebecca; Koehn, Philipp; Monz, Christof; Morishita, Makoto; Nagata, Masaaki (2022). Koehn, Philipp; Barrault, Loïc; Bojar, Ondřej; Bougares, Fethi; Chatterjee, Rajen; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Fraser, Alexander (eds.). Findings of the 2022 Conference on Machine Translation (WMT22). Proceedings of the Seventh Conference on Machine Translation (WMT). Abu Dhabi, United Arab Emirates (Hybrid): Association for Computational Linguistics. pp. 1–45.
  32. ۳۲٫۰ ۳۲٫۱ Kocmi, Tom; Avramidis, Eleftherios; Bawden, Rachel; Bojar, Ondřej; Dvorkovich, Anton; Federmann, Christian; Fishel, Mark; Freitag, Markus; Gowda, Thamme; Grundkiewicz, Roman; Haddow, Barry; Koehn, Philipp; Marie, Benjamin; Monz, Christof; Morishita, Makoto (2023). Koehn, Philipp; Haddow, Barry; Kocmi, Tom; Monz, Christof (eds.). Findings of the 2023 Conference on Machine Translation (WMT23): LLMs Are Here but Not Quite There Yet. Proceedings of the Eighth Conference on Machine Translation. Singapore: Association for Computational Linguistics. pp. 1–42. doi:10.18653/v1/2023.wmt-1.1.
  33. ۳۳٫۰ ۳۳٫۱ Liu, Yinhan; Gu, Jiatao; Goyal, Naman; Li, Xian; Edunov, Sergey; Ghazvininejad, Marjan; Lewis, Mike; Zettlemoyer, Luke (2020). "Multilingual Denoising Pre-training for Neural Machine Translation". Transactions of the Association for Computational Linguistics. 8: 726–742. arXiv:2001.08210. doi:10.1162/tacl_a_00343.
  34. ۳۴٫۰ ۳۴٫۱ ۳۴٫۲ Hendy, Amr; Abdelrehim, Mohamed; Sharaf, Amr; Raunak, Vikas; Gabr, Mohamed; Matsushita, Hitokazu; Kim, Young Jin; Afify, Mohamed; Awadalla, Hany (2023-02-18). "How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation". arXiv:2302.09210 [cs.CL].
  35. ۳۵٫۰ ۳۵٫۱ "GPT 3 dataset statistics: languages by character count". OpenAI. 2020-06-01. Retrieved 2023-12-23.
  36. ۳۶٫۰ ۳۶٫۱ Russell, Stuart; Norvig, Peter. Artificial Intelligence: A Modern Approach (4th, global ed.). Pearson.
  37. Federico, Marcello; Cettolo, Mauro (2007). Callison-Burch, Chris; Koehn, Philipp; Fordyce, Cameron Shaw; Monz, Christof (eds.). "Efficient Handling of N-gram Language Models for Statistical Machine Translation". Proceedings of the Second Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics: 88–95. doi:10.3115/1626355.1626367.
  38. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018). Improving Language Understanding by Generative Pre-Training (PDF) (Technical report). OpenAI. Retrieved 2023-12-26.
  39. Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared D; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (2020). "Language Models are Few-Shot Learners". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.