ترجمه ماشینی عصبی
ترجمه ماشینی عصبی (NMT) رویکردی در ترجمه ماشینی است که از یک شبکه عصبی مصنوعی برای پیشبینی احتمال یک توالی از کلمات استفاده میکند و معمولاً جملات کامل را در یک مدل یکپارچه پردازش میکند.
این روش امروزه رویکرد غالب محسوب میشود[۱]:293[۲]:۱ و میتواند ترجمههایی با کیفیتی نزدیک به ترجمه انسانی ارائه دهد، بهویژه هنگام ترجمه بین زبانهای دارای منابع غنی و تحت شرایط خاص.[۳] با این حال، همچنان چالشهایی وجود دارد، بهویژه برای زبانهایی که دادههای باکیفیت کمتری در دسترس دارند[۴][۵][۱]:۲۹۳ و همچنین در تغییر دامنه بین دادههایی که سیستم بر اساس آن آموزش دیده و متونی که باید ترجمه کند.[۱]:۲۹۳ سیستمهای NMT همچنین تمایل دارند ترجمههایی نسبتاً تحتاللفظی ارائه دهند.[۵]
مرور کلی
[ویرایش]در وظیفه ترجمه، یک جمله (شامل توکن ) در زبان مبدأ باید به یک جمله (شامل توکن ) در زبان مقصد ترجمه شود. توکنهای مبدأ و مقصد (که در سادهترین حالت برای یکدیگر استفاده میشوند) بهصورت بردار نمایش داده میشوند تا بتوان آنها را بهصورت ریاضی پردازش کرد.
مدلهای NMT یک احتمال [۲]:5[۶]:۱ را به ترجمههای احتمالی y اختصاص میدهند و سپس زیرمجموعهای از ترجمههای ممکن را برای یافتن ترجمهای با بالاترین احتمال جستجو میکنند. بیشتر مدلهای NMT خودبازگشتی هستند: آنها احتمال هر توکن مقصد را بهعنوان تابعی از جمله مبدأ و توکنهای مقصد پیشبینیشده قبلی مدلسازی میکنند. احتمال کل ترجمه سپس حاصلضرب احتمالات توکنهای پیشبینیشده فردی خواهد بود:[۲]:5[۶]:۲
مدلهای NMT در نحوه مدلسازی این تابع تفاوت دارند، اما بیشتر آنها از نوعی معماری رمزگذار-رمزگشا استفاده میکنند:[۶]:2[۷]:۴۶۹ ابتدا یک شبکه رمزگذار برای پردازش و تبدیل آن به یک بردار یا ماتریس نمایشی از جمله مبدأ به کار گرفته میشود. سپس یک شبکه رمزگشا استفاده میشود که معمولاً یک کلمه مقصد را در هر مرحله تولید میکند، با در نظر گرفتن نمایش مبدأ و توکنهایی که قبلاً تولید شدهاند.
به محض اینکه رمزگشا یک توکن ویژه پایان جمله تولید کند، فرایند رمزگشایی به پایان میرسد. از آنجا که رمزگشا به خروجیهای قبلی خود ارجاع میدهد، این روش رمزگشایی خودبازگشتی نامیده میشود.
تاریخچه
[ویرایش]رویکردهای اولیه
[ویرایش]در سال ۱۹۸۷، رابرت بی. آلن استفاده از شبکههای عصبی پیشخور را برای ترجمه جملات انگلیسی تولیدشده خودکار با واژگان محدود ۳۱ کلمهای به اسپانیایی نشان داد. در این آزمایش، اندازه لایههای ورودی و خروجی شبکه بهگونهای انتخاب شد که فقط برای طولانیترین جملات در زبان مبدأ و مقصد کافی باشد، زیرا شبکه هیچ مکانیزمی برای رمزگذاری توالیهایی با طول دلخواه در یک نمایش با اندازه ثابت نداشت. در خلاصهاش، آلن همچنین به امکان استفاده از مدلهای خودهمبسته اشاره کرد، یکی برای رمزگذاری مبدأ و دیگری برای رمزگشایی مقصد.[۸]
لونی کریسمن در سال ۱۹۹۱ بر اساس کار آلن، شبکههای حافظه خودهمبسته بازگشتی (RAAM) جداگانهای را آموزش داد که توسط جردن بی. پولاک توسعه یافته بود[۹]، برای زبان مبدأ و مقصد. هر یک از شبکههای RAAM آموزش داده شدند تا یک جمله با طول دلخواه را به یک نمایش پنهان با اندازه ثابت رمزگذاری کنند و سپس جمله اصلی را از آن نمایش رمزگشایی کنند. علاوه بر این، دو شبکه همچنین آموزش داده شدند تا نمایش پنهان خود را به اشتراک بگذارند؛ به این ترتیب، رمزگذار مبدأ میتواند نمایشی تولید کند که رمزگشای مقصد قادر به رمزگشایی آن باشد.[۱۰] فورکادا و نکو در سال ۱۹۹۷ این روش را ساده کردند تا مستقیماً یک رمزگذار مبدأ و یک رمزگشا برای مقصد را در چیزی که آن را حافظه ناهمبسته بازگشتی نامیدند، آموزش دهند.[۱۱]
همچنین در سال ۱۹۹۷، کاستانیو و کاساکوبرتا از شبکه عصبی بازگشتی المان در یک وظیفه دیگر ترجمه ماشینی با واژگان و پیچیدگی بسیار محدود استفاده کردند.[۱۲][۱۳]
با وجود شباهت این رویکردهای اولیه به NMT مدرن، منابع محاسباتی آن زمان برای پردازش مجموعه دادههایی که به اندازه کافی بزرگ باشند تا پیچیدگی محاسباتی مسئله ترجمه ماشینی در متون واقعی را مدیریت کنند، کافی نبود.[۱]:39[۱۴]:۲ در عوض، روشهای دیگر مانند ترجمه ماشینی آماری در دهههای ۱۹۹۰ و ۲۰۰۰ به عنوان فناوری پیشرو مطرح شدند.
رویکردهای ترکیبی
[ویرایش]در دورهای که ترجمه ماشینی آماری رایج بود، برخی پژوهشها از روشهای عصبی برای جایگزینی بخشهای مختلف در ترجمه ماشینی آماری استفاده کردند، در حالی که همچنان از رویکرد خطی-لگاریتمی برای یکپارچهسازی آنها بهره میبردند.[۱]:39[۲]:۱
بهعنوان مثال، در پژوهشهای مختلف همراه با سایر محققان، هولگر شوئنک مدل معمول مدل زبانی n-gram را با یک مدل عصبی جایگزین کرد[۱۵][۱۶] و احتمال ترجمه عبارات را با استفاده از یک شبکه پیشخور تخمین زد.[۱۷]
سک۲سک
[ویرایش]در سالهای ۲۰۱۳ و ۲۰۱۴، ترجمه ماشینی عصبی انتها به انتها با استفاده از روشهای جدید به موفقیت چشمگیری دست یافت. کالچبرنر و بلانسوم از یک شبکه عصبی پیچشی (CNN) برای رمزگذاری مبدأ استفاده کردند[۱۸]، در حالی که چو و همکاران و سوتسکِوِر و همکاران از یک شبکه عصبی بازگشتی (RNN) بهره بردند.[۱۹][۲۰] هر سه مدل از یک RNN که بر اساس یک رمزگذاری ثابت از مبدأ تنظیم شده بود، بهعنوان رمزگشا برای تولید ترجمه استفاده کردند.
با این حال، این مدلها در ترجمه جملات طولانی عملکرد ضعیفی داشتند.[۲۱]:107[۱]:39[۲]:۷ این مشکل زمانی برطرف شد که باهداناو و همکاران مکانیزم توجه را به معماری رمزگذار-رمزگشا معرفی کردند: در هر مرحله رمزگشایی، وضعیت رمزگشا برای محاسبه یک نمایش از مبدأ که بر بخشهای مختلف آن تمرکز دارد، استفاده میشود و این نمایش در محاسبه احتمالات توکن بعدی به کار میرود.[۲۲]
بر اساس این معماریهای مبتنی بر RNN، بایدو در سال ۲۰۱۵ اولین «سیستم ترجمه ماشینی عصبی در مقیاس بزرگ» را راهاندازی کرد[۲۳]:۱۴۴، و در سال ۲۰۱۶ ترجمه ماشینی عصبی گوگل معرفی شد.[۲۳]:144[۲۴] از آن سال به بعد، مدلهای عصبی به انتخاب غالب در کنفرانس اصلی ترجمه ماشینی، یعنی کارگاه ترجمه ماشینی آماری، تبدیل شدند.[۲۵]
گهرینگ و همکاران در سال ۲۰۱۷ یک رمزگذار CNN را با مکانیزم توجه ترکیب کردند، که وابستگیهای بلندمدت در مبدأ را بهتر از رویکردهای قبلی مدیریت میکرد و همچنین سرعت ترجمه را افزایش داد، زیرا رمزگذار CNN قابلیت پردازش موازی دارد، در حالی که رمزگذار RNN به دلیل ماهیت بازگشتی خود باید هر توکن را بهصورت جداگانه رمزگذاری کند.[۲۶]:230[۲۷][۲۸][۲۹]
ترانسفورمر
[ویرایش]یکی از معماریهای شبکهای که امکان پردازش موازی را فراهم میکند، ترانسفورمر است که توسط واسوانی و همکاران در سال ۲۰۱۷ معرفی شد.[۳۰] مانند مدلهای قبلی، ترانسفورمر همچنان از مکانیزم توجه برای وزندهی خروجی رمزگذار در مراحل رمزگشایی استفاده میکند. با این حال، شبکههای رمزگذار و رمزگشای ترانسفورمر خودشان نیز بر اساس توجه طراحی شدهاند، نه بازگشت یا پیچش: هر لایه خروجی لایه قبلی را در فرآیندی به نام توجه به خود وزندهی و تبدیل میکند.
از آنجا که مکانیزم توجه هیچ درکی از ترتیب توکنها ندارد، اما ترتیب کلمات در یک جمله اهمیت دارد، توکنهای تعبیهشده با یک رمزگذاری صریح موقعیت آنها در جمله ترکیب میشوند.[۲]:15[۶]:۷ از آنجا که هم رمزگذار و هم رمزگشای ترانسفورمر فاقد عناصر بازگشتی هستند، هر دو میتوانند در طول آموزش بهصورت موازی پردازش شوند. با این حال، رمزگشای اصلی ترانسفورمر همچنان خودبازگشتی است، به این معنی که رمزگشایی باید در زمان استنتاج بهصورت توکنبهتوکن انجام شود.
مدل ترانسفورمر بهسرعت به انتخاب غالب برای سیستمهای ترجمه ماشینی تبدیل شد[۲]:۴۴ و همچنان در سالهای ۲۰۲۲ و ۲۰۲۳ پرکاربردترین معماری در کارگاه ترجمه ماشینی آماری بود.[۳۱]:35–40[۳۲]:۲۸–۳۱
معمولاً وزنهای مدلهای NMT بهصورت تصادفی مقداردهی اولیه میشوند و سپس با آموزش روی مجموعه دادههای موازی یادگرفته میشوند. با این حال، از آنجا که استفاده از مدلهای زبانی بزرگ (LLMs) مانند BERT که روی حجم زیادی از دادههای تکزبانه از پیش آموزش دیدهاند، بهعنوان نقطه شروع برای یادگیری وظایف دیگر در NLP بسیار موفق بوده است، این پارادایم در NMT نیز رایجتر شده است. این روش بهویژه برای زبانهای کممنبع که مجموعه دادههای موازی بزرگی ندارند، مفید است.[۴]:۶۸۹–۶۹۰ نمونهای از این رویکرد مدل mBART است که ابتدا یک ترانسفورمر را روی یک مجموعه داده چندزبانه برای بازیابی توکنهای ماسکشده در جملات آموزش میدهد و سپس رمزگذار خودکار حاصل را برای وظیفه ترجمه ریزتنظیم میکند.[۳۳]
مدلهای سازنده LLM
[ویرایش]بهجای ریزتنظیم یک مدل زبانی از پیش آموزشدیده برای وظیفه ترجمه، مدل سازنده بهاندازه کافی بزرگ میتوانند مستقیماً برای ترجمه یک جمله به زبان موردنظر فراخوانی شوند. این رویکرد نخستین بار در سال ۲۰۲۳ توسط هندی و همکاران برای جیپیتی ۳.۵ بهطور جامع آزمایش و ارزیابی شد. آنها دریافتند که «سیستمهای GPT میتوانند خروجیهای ترجمهای بسیار روان و رقابتی تولید کنند، حتی در تنظیم zero-shot، بهویژه برای ترجمههای زبانهای دارای منابع غنی».[۳۴]:۲۲
WMT23 همین رویکرد را (اما با استفاده از [[جیپیتی ۴ ]]) ارزیابی کرد و دریافت که این مدل در ترجمه به زبان انگلیسی با فناوریهای پیشرفته همسطح است، اما در ترجمه به زبانهای کممنبع عملکرد ضعیفتری دارد.[۳۲]:۱۶–۱۷ این مسئله منطقی به نظر میرسد، زیرا مدلهای GPT عمدتاً بر روی متون انگلیسی آموزش دیدهاند.[۳۵]
مقایسه با ترجمه ماشینی آماری
[ویرایش]NMT چندین چالش موجود در ترجمه ماشینی آماری (SMT) را برطرف کرده است:
- اتکای کامل NMT به نمایش پیوسته توکنها، مشکلات ناشی از کمبود دادههای مربوط به کلمات یا عبارات نادر را برطرف کرد. مدلها توانستند بهطور مؤثرتری تعمیم دهند.[۱۸]:1[۳۶]:۹۰۰–۹۰۱
- طول محدود n-gram در مدلهای زبانی SMT باعث از دست رفتن بخشی از زمینه معنایی میشد. سیستمهای NMT این مشکل را با حذف محدودیت سختگیرانه در تعداد توکنها و استفاده از مکانیزم توجه برای انتخاب توکنهای مهم در تولید توکن بعدی برطرف کردند.[۳۶]:۹۰۰–۹۰۱
- آموزش انتها به انتهای یک مدل واحد، عملکرد ترجمه را بهبود بخشید و همچنین کل فرایند را سادهتر کرد.[نیازمند منبع]
- مدلهای عظیم n-gram (تا ۷-gram) در SMT به مقدار زیادی حافظه نیاز داشتند،[۳۷]:۸۸ در حالی که NMT به حافظه کمتری نیاز دارد.
روش آموزش
[ویرایش]تابع زیان آنتروپی متقاطع
[ویرایش]مدلهای NMT معمولاً برای بیشینهسازی احتمال مشاهده دادههای آموزشی آموزش داده میشوند. بهعبارت دیگر، برای مجموعهای از جملات مبدأ و جملات مقصد متناظر ، هدف یافتن پارامترهای مدل است که مجموع احتمال هر جمله مقصد در دادههای آموزشی را با توجه به جمله مبدأ متناظر بیشینه کند:
گسترش به سطح توکن بهصورت زیر خواهد بود:
از آنجا که تنها بیشینه مقدار موردنظر است، میتوان بهجای آن بیشینه لگاریتم را جستجو کرد (که مزیت آن جلوگیری از خطای محاسباتی ناشی از مقادیر بسیار کوچک است).
با استفاده از این واقعیت که لگاریتم حاصلضرب برابر با مجموع لگاریتمهای عوامل آن است و تغییر علامت، تابع زیان کلاسیک آنتروپی متقاطع حاصل میشود:
در عمل، این کمینهسازی بهصورت تکراری بر روی زیرمجموعههای کوچک (مینیبچها) از مجموعه آموزشی با استفاده از گرادیان نزولی تصادفی انجام میشود.
اجبار تدریس
[ویرایش]در زمان استنتاج، رمزگشاهای خودبازگشتی از توکن تولیدشده در مرحله قبلی بهعنوان ورودی استفاده میکنند. با این حال، واژگان توکنهای مقصد معمولاً بسیار بزرگ است؛ بنابراین، در ابتدای مرحله آموزش، مدلهای آموزشندیده تقریباً همیشه توکن اشتباه را انتخاب میکنند؛ و مراحل بعدی باید با ورودیهای اشتباه کار کنند که باعث کاهش سرعت آموزش میشود.
بهجای این روش، در مرحله آموزش از اجبار تدریس استفاده میشود: مدل (که در این استعاره نقش «دانشآموز» را دارد) همیشه توکنهای صحیح قبلی را بهعنوان ورودی برای تولید توکن بعدی دریافت میکند، صرفنظر از آنچه در مرحله قبلی پیشبینی کرده است.
ترجمه با مهندسی پرسش در مدلهای زبانی بزرگ
[ویرایش]همانطور که در بخش تاریخچه توضیح داده شد، بهجای استفاده از یک سیستم NMT که بر روی متنهای موازی آموزش دیده است، میتوان یک مدل زبانی سازنده را برای ترجمه متن فراخوانی کرد. این مدلها از سیستمهای NMT مبتنی بر رمزگذار-رمزگشا در چندین جنبه متفاوت هستند:[۳۴]:1
- مدلهای زبانی سازنده برای وظیفه ترجمه آموزش ندیدهاند، چه برسد به مجموعه دادههای موازی. در عوض، آنها بر روی یک هدف مدلسازی زبانی آموزش داده میشوند، مانند پیشبینی کلمه بعدی در یک توالی که از یک مجموعه داده بزرگ متون استخراج شده است. این مجموعه داده میتواند شامل اسناد به زبانهای مختلف باشد، اما در عمل عمدتاً شامل متون انگلیسی است.[۳۵] پس از این مرحله پیشآموزش، آنها برای یک وظیفه دیگر ریزتنظیم میشوند، که معمولاً شامل پیروی از دستورالعملها است.[۳۸]
- از آنجا که این مدلها برای ترجمه آموزش ندیدهاند، معماری رمزگذار-رمزگشا ندارند. در عوض، فقط شامل رمزگشای ترانسفورمر هستند.
- برای رقابت در وظیفه ترجمه ماشینی، مدلهای زبانی بزرگ باید بسیار بزرگتر از سایر سیستمهای NMT باشند. بهعنوان مثال، GPT-3 دارای ۱۷۵ میلیارد پارامتر است،[۳۹]:5 در حالی که mBART دارای ۶۸۰ میلیون[۳۳]:727 و ترانسفورمر بزرگ اصلی تنها ۲۱۳ میلیون پارامتر دارد.[۳۰]:9 این بدان معناست که آموزش و استفاده از آنها از نظر محاسباتی هزینهبرتر است.
یک مدل زبانی سازنده را میتوان بهصورت zero-shot فراخوانی کرد، یعنی فقط از آن خواسته شود که یک متن را به زبان دیگر ترجمه کند بدون ارائه مثالهای بیشتر در درخواست. یا میتوان یک یا چند نمونه ترجمه را در درخواست گنجاند و سپس از مدل خواست که متن موردنظر را ترجمه کند. این روش بهترتیب یادگیری تکنمونهای یا چندنمونهای نامیده میشود. بهعنوان مثال، درخواستهای زیر توسط هندی و همکاران (۲۰۲۳) برای ترجمه بدون نمونه و تکنمونهای استفاده شدهاند:[۳۴]
### این جمله را از [زبان مبدأ] به [زبان مقصد] ترجمه کن، مبدأ: [جمله مبدأ] ### مقصد:
این را به ۱. [زبان مقصد] ترجمه کن: [نمونه ۱ مبدأ] ۱. [نمونه ۱ ترجمه] این را به ۱. [زبان مقصد] ترجمه کن: [ورودی] ۱.
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ ۱٫۲ ۱٫۳ ۱٫۴ ۱٫۵ Koehn, Philipp (2020). Neural Machine Translation. Cambridge University Press.
- ↑ ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ ۲٫۴ ۲٫۵ ۲٫۶ Stahlberg, Felix (2020-09-29). "Neural Machine Translation: A Review and Survey". arXiv:1912.02047v2 [cs.CL].
- ↑ Popel, Martin; Tomkova, Marketa; Tomek, Jakub; Kaiser, Łukasz; Uszkoreit, Jakob; Bojar, Ondřej; Žabokrtský, Zdeněk (2020-09-01). "Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals". Nature Communications. 11 (1): 4381. Bibcode:2020NatCo..11.4381P. doi:10.1038/s41467-020-18073-9. hdl:11346/BIBLIO@id=368112263610994118. ISSN 2041-1723. PMC 7463233. PMID 32873773.
- ↑ ۴٫۰ ۴٫۱ Haddow, Barry; Bawden, Rachel; Miceli Barone, Antonio Valerio; Helcl, Jindřich; Birch, Alexandra (2022). "Survey of Low-Resource Machine Translation". Computational Linguistics. 48 (3): 673–732. arXiv:2109.00486. doi:10.1162/coli_a_00446.
- ↑ ۵٫۰ ۵٫۱ Poibeau, Thierry (2022). Calzolari, Nicoletta; Béchet, Frédéric; Blache, Philippe; Choukri, Khalid; Cieri, Christopher; Declerck, Thierry; Goggi, Sara; Isahara, Hitoshi; Maegaard, Bente (eds.). "On "Human Parity" and "Super Human Performance" in Machine Translation Evaluation". Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association: 6018–6023.
- ↑ ۶٫۰ ۶٫۱ ۶٫۲ ۶٫۳ Tan, Zhixing; Wang, Shuo; Yang, Zonghan; Chen, Gang; Huang, Xuancheng; Sun, Maosong; Liu, Yang (2020-12-31). "Neural Machine Translation: A Review of Methods, Resources, and Tools". arXiv:2012.15515 [cs.CL].
- ↑ Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). "12.4.5 Neural Machine Translation". Deep Learning. MIT Press. pp. 468–471. Retrieved 2022-12-29.
- ↑ Allen, Robert B. (1987). Several Studies on Natural Language and Back-Propagation. IEEE First International Conference on Neural Networks. Vol. 2. San Diego. pp. 335–341. Retrieved 2022-12-30.
- ↑ Chrisman, Lonnie (1991). "Learning Recursive Distributed Representations for Holistic Computation". Connection Science. 3 (4): 345–366. doi:10.1080/09540099108946592. ISSN 0954-0091.
- ↑ Pollack, Jordan B. (1990). "Recursive distributed representations". Artificial Intelligence. 46 (1): 77–105. doi:10.1016/0004-3702(90)90005-K.
- ↑ Forcada, Mikel L.; Ñeco, Ramón P. (1997). "Recursive hetero-associative memories for translation". Biological and Artificial Computation: From Neuroscience to Technology. Lecture Notes in Computer Science. Vol. 1240. pp. 453–462. doi:10.1007/BFb0032504. ISBN 978-3-540-63047-0.
- ↑ Castaño, Asunción; Casacuberta, Francisco (1997). A connectionist approach to machine translation. 5th European Conference on Speech Communication and Technology (Eurospeech 1997). Rhodes, Greece. pp. 91–94. doi:10.21437/Eurospeech.1997-50.
- ↑ Castaño, Asunción; Casacuberta, Francisco; Vidal, Enrique (1997-07-23). Machine translation using neural networks and finite-state models. Proceedings of the 7th Conference on Theoretical and Methodological Issues in Machine Translation of Natural Languages. St John's College, Santa Fe.
- ↑ Yang, Shuoheng; Wang, Yuxin; Chu, Xiaowen (2020-02-18). "A Survey of Deep Learning Techniques for Neural Machine Translation". arXiv:2002.07526 [cs.CL].
- ↑ Schwenk, Holger; Dechelotte, Daniel; Gauvain, Jean-Luc (2006). Continuous Space Language Models for Statistical Machine Translation. Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions. Sydney, Australia. pp. 723–730.
- ↑ Schwenk, Holger (2007). "Contiuous space language models". Computer Speech and Language. 3 (21): 492–518. doi:10.1016/j.csl.2006.09.003.
- ↑ Schwenk, Holger (2012). Continuous Space Translation Models for Phrase-Based Statistical Machine Translation. Proceedings of COLING 2012: Posters. Mumbai, India. pp. 1071–1080.
- ↑ ۱۸٫۰ ۱۸٫۱ Kalchbrenner, Nal; Blunsom, Philip (2013). "Recurrent Continuous Translation Models". Proceedings of the Association for Computational Linguistics: 1700–1709.
- ↑ Cho, Kyunghyun; van Merriënboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics. pp. 1724–1734. arXiv:1406.1078. doi:10.3115/v1/D14-1179.
- ↑ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). "Sequence to Sequence Learning with Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 27. arXiv:1409.3215.
- ↑ Cho, Kyunghyun; van Merriënboer, Bart; Bahdanau, Dzmitry; Bengio, Yoshua (2014). On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. Doha, Qatar: Association for Computational Linguistics. pp. 103–111. arXiv:1409.1259. doi:10.3115/v1/W14-4012.
- ↑ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
- ↑ ۲۳٫۰ ۲۳٫۱ Wang, Haifeng; Wu, Hua; He, Zhongjun; Huang, Liang; Church, Kenneth Ward (2022-11-01). "Progress in Machine Translation". Engineering (به انگلیسی). 18: 143–153. Bibcode:2022Engin..18..143W. doi:10.1016/j.eng.2021.03.023.
- ↑ Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz (2016). "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation". arXiv:1609.08144 [cs.CL].
- ↑ Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (2016). "Findings of the 2016 Conference on Machine Translation" (PDF). ACL 2016 First Conference on Machine Translation (WMT16). The Association for Computational Linguistics: 131–198. Archived from the original (PDF) on 2018-01-27. Retrieved 2018-01-27.
- ↑ Gehring, Jonas; Auli, Michael; Grangier, David; Dauphin, Yann (2017). A Convolutional Encoder Model for Neural Machine Translation. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver, Canada: Association for Computational Linguistics. pp. 123–135. arXiv:1611.02344. doi:10.18653/v1/P17-1012.
- ↑ Coldewey, Devin (2017-08-29). "DeepL schools other online translators with clever machine learning". TechCrunch. Retrieved 2023-12-26.
- ↑ Leloup, Damien; Larousserie, David (2022-08-29). "Quel est le meilleur service de traduction en ligne?". Le Monde. Retrieved 2023-01-10.
- ↑ Pakalski, Ingo (2017-08-29). "DeepL im Hands On: Neues Tool übersetzt viel besser als Google und Microsoft". Golem. Retrieved 2023-01-10.
- ↑ ۳۰٫۰ ۳۰٫۱ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Gomez, Aidan N.; Kaiser, Łukasz; Polosukhin, Illia (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017). pp. 5998–6008.
- ↑ Kocmi, Tom; Bawden, Rachel; Bojar, Ondřej; Dvorkovich, Anton; Federmann, Christian; Fishel, Mark; Gowda, Thamme; Graham, Yvette; Grundkiewicz, Roman; Haddow, Barry; Knowles, Rebecca; Koehn, Philipp; Monz, Christof; Morishita, Makoto; Nagata, Masaaki (2022). Koehn, Philipp; Barrault, Loïc; Bojar, Ondřej; Bougares, Fethi; Chatterjee, Rajen; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Fraser, Alexander (eds.). Findings of the 2022 Conference on Machine Translation (WMT22). Proceedings of the Seventh Conference on Machine Translation (WMT). Abu Dhabi, United Arab Emirates (Hybrid): Association for Computational Linguistics. pp. 1–45.
- ↑ ۳۲٫۰ ۳۲٫۱ Kocmi, Tom; Avramidis, Eleftherios; Bawden, Rachel; Bojar, Ondřej; Dvorkovich, Anton; Federmann, Christian; Fishel, Mark; Freitag, Markus; Gowda, Thamme; Grundkiewicz, Roman; Haddow, Barry; Koehn, Philipp; Marie, Benjamin; Monz, Christof; Morishita, Makoto (2023). Koehn, Philipp; Haddow, Barry; Kocmi, Tom; Monz, Christof (eds.). Findings of the 2023 Conference on Machine Translation (WMT23): LLMs Are Here but Not Quite There Yet. Proceedings of the Eighth Conference on Machine Translation. Singapore: Association for Computational Linguistics. pp. 1–42. doi:10.18653/v1/2023.wmt-1.1.
- ↑ ۳۳٫۰ ۳۳٫۱ Liu, Yinhan; Gu, Jiatao; Goyal, Naman; Li, Xian; Edunov, Sergey; Ghazvininejad, Marjan; Lewis, Mike; Zettlemoyer, Luke (2020). "Multilingual Denoising Pre-training for Neural Machine Translation". Transactions of the Association for Computational Linguistics. 8: 726–742. arXiv:2001.08210. doi:10.1162/tacl_a_00343.
- ↑ ۳۴٫۰ ۳۴٫۱ ۳۴٫۲ Hendy, Amr; Abdelrehim, Mohamed; Sharaf, Amr; Raunak, Vikas; Gabr, Mohamed; Matsushita, Hitokazu; Kim, Young Jin; Afify, Mohamed; Awadalla, Hany (2023-02-18). "How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation". arXiv:2302.09210 [cs.CL].
- ↑ ۳۵٫۰ ۳۵٫۱ "GPT 3 dataset statistics: languages by character count". OpenAI. 2020-06-01. Retrieved 2023-12-23.
- ↑ ۳۶٫۰ ۳۶٫۱ Russell, Stuart; Norvig, Peter. Artificial Intelligence: A Modern Approach (4th, global ed.). Pearson.
- ↑ Federico, Marcello; Cettolo, Mauro (2007). Callison-Burch, Chris; Koehn, Philipp; Fordyce, Cameron Shaw; Monz, Christof (eds.). "Efficient Handling of N-gram Language Models for Statistical Machine Translation". Proceedings of the Second Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics: 88–95. doi:10.3115/1626355.1626367.
- ↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018). Improving Language Understanding by Generative Pre-Training (PDF) (Technical report). OpenAI. Retrieved 2023-12-26.
- ↑ Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared D; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (2020). "Language Models are Few-Shot Learners". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.