ترجمه ماشینی آماری

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

ترجمهٔ ماشینی آماری یکی از راه‌های ترجمهٔ ماشینی است که در آن فرایند ترجمه با مدل‌های آماری انجام می‌شود. این مدل‌های آماری با کمک آنالیز عبارات متنی دوزبانه است. روش آماری با روش ترجمه بر پایه دستور و ترجمه بر پایه نمونه در تضاد است.

نخستین ایدهٔ ترجمهٔ ماشینی آماری را وارن ویور در سال ۱۹۴۹ ارائه کرد که در آن نظریه اطلاعات کلود شانون را به کار بست. در سال ۱۹۹۱ این ایده توسط پژوهشگران شرکت آی‌بی‌ام در مرکز پژوهشی جی واتسون بازتعریف شد و سبب محبوبیت ترجمه ماشینی در سال‌های اخیر شده است. امروزه این روش بهترین و گسترده‌ترین روش ترجمهٔ ماشینی است.

اصول[ویرایش]

ایده ترجمه ماشینی از نظریه اطلاعات سر برآورده است. سند (متن خواهان ترجمه) بر پایه احتمال p(e|f) ترجمه می‌شود که رشتهٔ e در زبان بومی (برای نمونه انگلیسی) ترجمهٔ رشتهٔ f در زبان بیگانه (برای نمونه فرانسوی) است. معمولاً، این احتمالات با استفاده از تکنیک‌های برآورد پارامتر برآورد می‌شوند.

مزیت‌ها[ویرایش]

مهمترین مزیت‌های ترجمهٔ ماشینی آماری در برابر روش‌های سنتی عبارتند از:

  • بهره‌گیری بهتر از منابع
    • حجم بسیاری از قالب ماشین خوان که در زبان طبیعی گفته می‌شود وجود دارد.
    • معمولاً سامانه‌های ترجمه آماری مختص جفت زبان خاصی نیستند و بر هر جفت زبانی سازگارند.
    • سامانه‌های ترجمه بر پایه دستور نیازمند توسعه دستی دستورهای زبان‌شناسی است که می‌تواند پرهزینه باشد و اغلب بر دیگر زبان‌ها سازگار نیست.
  • ترجمه طبیعی‌تر (روان‌تر و نزدیک‌تر به گفتار)