ترجمه ماشینی آماری

از ویکی‌پدیا، دانشنامهٔ آزاد

ترجمهٔ ماشینی آماری یکی از روش‌های ترجمهٔ ماشینی است که در آن فرایند ترجمه با مدل‌های آماری انجام می‌شود. این مدل‌های آماری با کمک تحلیل عبارات متنی دوزبانه است. روش آماری با روش ترجمه بر پایه دستور و ترجمه بر پایه نمونه در تضاد است.

نخستین ایدهٔ ترجمهٔ ماشینی آماری را وارن ویور در سال ۱۹۴۹ ارائه کرد که در آن نظریه اطلاعات کلود شانون را به کار بست. در سال ۱۹۹۱ این ایده توسط پژوهشگران شرکت آی‌بی‌ام در مرکز پژوهشی جی واتسون بازتعریف شد و سبب محبوبیت ترجمه ماشینی در سال‌های اخیر شده‌است. امروزه این روش بهترین و گسترده‌ترین روش ترجمهٔ ماشینی است.

اصول[ویرایش]

ایده ترجمه ماشینی از نظریه اطلاعات سر برآورده است. سند (متن خواهان ترجمه) بر پایه احتمال ترجمه می‌شود که رشتهٔ e در زبان مبدأ (برای نمونه انگلیسی) ترجمهٔ رشتهٔ f در زبان مقصد (برای نمونه فرانسوی) است. معمولاً، این احتمالات با استفاده از تکنیک‌های برآورد پارامتر برآورد می‌شوند.

مسئله مدل کردن توزیع احتمال به روش‌های مختلف بررسی شده‌است. یکی از روش‌های که به خوبی در پیاده‌سازی‌های کامپیوتری مورد استفاده قرار می‌گیرد به کار بردن قضیه بیز می‌باشد. در این قضیه عبارت است از ، که در آن مدل ترجمه ، بیان کننده میزان احتمال اینکه عبارت مبدأ ترجمه عبارت مقصد باشد و مدل زبانی ، بیان کننده احتمال اینکه این عبارت در زبان مقصد دیده شود. این تجزیه از این جهت جالب توجه است که مسئله را به دو مسئله کوچکتر می‌شکند. به این ترتیب، بهترین ترجمه ترجمه ای است که بیشترین احتمال را در عبارت زیر بدست می‌دهد:

.

در ابتدا مدلهای ترجمه آماری واژه-مبنا بودند (مدلهای ۱–۵ آی‌بی‌ام مدل پنهان مارکوف از استفان ووگل[۱] و مدل ۶ از فرانس آوخ[۲])، اما با معرفی مدلهای عبارت-مبنا پیشرفت چشمگیری در ترجمه آماری ماشین به وجود آمد.[۳] در تحقیقات اخیر از ساختارهای نحویی نیز در ترجمه آماری ماشین استفاده می‌شود.[۴]

مزیت‌ها[ویرایش]

مهمترین مزیت‌های ترجمهٔ ماشینی آماری در برابر روش‌های سنتی عبارتند از:

  • بهره‌گیری بهتر از منابع
    • حجم بسیاری از قالب ماشین خوان که در زبان طبیعی گفته می‌شود وجود دارد.
    • معمولاً سامانه‌های ترجمه آماری مختص جفت زبان خاصی نیستند و بر هر جفت زبانی سازگارند.
    • سامانه‌های ترجمه بر پایه دستور نیازمند توسعه دستی دستورهای زبان‌شناسی است که می‌تواند پرهزینه باشد و اغلب بر دیگر زبان‌ها سازگار نیست.
  • ترجمه طبیعی‌تر (روان‌تر و نزدیک‌تر به گفتار)

کاستی‌ها[ویرایش]

  • ساحتن پیکره‌ها می‌تواند هزینه‌بر باشد.
  • خطاهای به خصوصی، سخت پیدا و برطرف می‌شوند.
  • شایستگی ظاهری نتایج ممکن است ایرادهای ترجمه را بپوشاند.[۵]

نمونه‌های عملیاتی[ویرایش]

  • مترجم گوگل[۶] هرچند به صورت رسمی اعلام نشده‌است اما گوگل یکی از اولین سرویسهای برخطی بوده که از تکنیک ترجمه ماشینی آماری استفاده کرده‌است.
  • ترگمان[۷] اولین سایت ترجمه ماشینی آماری ایرانی که قابلیت ترجمه دو زبانه فارسی - انگلیسی را دارا می‌باشد.
  • فرازین [۸] کاملترین سایت ترجمه دوسویه فارسی_انگلیسی ایرانی است که با استفاده از هوش مصنوعی قابلیت ترجمه انواع فایل متنی مانند مقاله، کتاب، سایت، بروشور، زیرنویس فیلم و غیره را دارد و فرمت‌های مختلف متنی را مانند: word، pdf، powerpoint و... پشتیبانی می‌کند.

منابع[ویرایش]

  1. S. Vogel, H. Ney and C. Tillmann. 1996. HMM-based Word Alignment in StatisticalTranslation. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.
  2. F. Och and H. Ney. (2003). A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1):19-51
  3. P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase based translation. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL).
  4. D. Chiang (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05).
  5. Zhou Sharon (July 25, 2018). "Has AI surpassed humans at translation? Not even close!". Skynet Today (به انگلیسی). Retrieved 2 August 2018.
  6. Google Translate: http://translate.google.com
  7. Targoman: http://targoman.com
  8. faraazin: http://faraazin.ir