ترجمه ماشینی آماری

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

ترجمهٔ ماشینی آماری یکی از راه‌های ترجمهٔ ماشینی است که در آن فرایند ترجمه با مدل‌های آماری انجام می‌شود. این مدل‌های آماری با کمک آنالیز عبارات متنی دوزبانه است. روش آماری با روش ترجمه بر پایه دستور و ترجمه بر پایه نمونه در تضاد است.

نخستین ایدهٔ ترجمهٔ ماشینی آماری را وارن ویور در سال ۱۹۴۹ ارائه کرد که در آن نظریه اطلاعات کلود شانون را به کار بست. در سال ۱۹۹۱ این ایده توسط پژوهشگران شرکت آی‌بی‌ام در مرکز پژوهشی جی واتسون بازتعریف شد و سبب محبوبیت ترجمه ماشینی در سال‌های اخیر شده است. امروزه این روش بهترین و گسترده‌ترین روش ترجمهٔ ماشینی است.

اصول[ویرایش]

ایده ترجمه ماشینی از نظریه اطلاعات سر برآورده است. سند (متن خواهان ترجمه) بر پایه احتمال p(e|f) ترجمه می‌شود که رشتهٔ e در زبان بومی (برای نمونه انگلیسی) ترجمهٔ رشتهٔ f در زبان بیگانه (برای نمونه فرانسوی) است. معمولاً، این احتمالات با استفاده از تکنیک‌های برآورد پارامتر برآورد می‌شوند.

مساله مدل کردن توزیع احتمال p(e|f) به روش های مختلف بررسی شده است. یکی از روش های که به خوبی در پیاده سازی های کامپیوتری مورد استفاده قرار میگیرد به کار بردن قضیه بیز میباشد. در این قضیه عبارت است از p(e|f) \propto p(f|e) p(e)، که در آن مدل ترجمه p(e|f)، بیان کننده میزان احتمال اینکه عبارت مبدأ ترجمه عبارت مقصد باشد و مدل زبانی p(e)، بیان کننده احتمال اینکه این عبارت در زبان مقصد دیده شود. این تجزیه از این جهت جالب توجه است که مساله را به دو مساله کوچکتر میشکند. به این ترتیب، بهترین ترجمه \tilde{e} ترجمه ای است که بیشترین احتمال را در عبارت زیر بدست میدهد:

 \tilde{e} = arg \max_{e \in e^*} p(e|f) = arg \max_{e\in e^*} p(f|e) p(e) .

در ابتدا مدلهای ترجمه آماری واژه-مبنا بودند (مدلهای ۱-۵ آی‌بی‌ام مدل پنهان مارکوف از استفان ووگل [۱] و مدل ۶ از فرانس آوخ [۲])، اما با معرفی مدلهای گروه-مبنا پیشرفت چشمگیری در ترجمه آماری ماشین به وجود آمد.[۳] در تحقیقات اخیر از ساختار هاینحویی نیز در ترجمه آماری ماشین استفاده میشود. [۴]

مزیت‌ها[ویرایش]

مهمترین مزیت‌های ترجمهٔ ماشینی آماری در برابر روش‌های سنتی عبارتند از:

  • بهره‌گیری بهتر از منابع
    • حجم بسیاری از قالب ماشین خوان که در زبان طبیعی گفته می‌شود وجود دارد.
    • معمولاً سامانه‌های ترجمه آماری مختص جفت زبان خاصی نیستند و بر هر جفت زبانی سازگارند.
    • سامانه‌های ترجمه بر پایه دستور نیازمند توسعه دستی دستورهای زبان‌شناسی است که می‌تواند پرهزینه باشد و اغلب بر دیگر زبان‌ها سازگار نیست.
  • ترجمه طبیعی‌تر (روان‌تر و نزدیک‌تر به گفتار)

نمونه های عملیاتی[ویرایش]

  • گوگل ترنسلیت [۵] هرچند به صورت رسمی اعلام نشده است اما گوگل یکی از اولین سرویسهای برخطی بوده که از تکنیک ترجمه ماشینی آماری استفاده کرده است.
  • ترگمان [۶] اولین سایت ترجمه ماشینی آماری ایرانی که قابلیت ترجمه دو زبانه فارسی - انگلیسی را دارا می باشد.

پانویس[ویرایش]

  1. S. Vogel, H. Ney and C. Tillmann. 1996. HMM-based Word Alignment in StatisticalTranslation. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.
  2. F. Och and H. Ney. (2003). A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1):19-51
  3. P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase based translation. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL).
  4. D. Chiang (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05).
  5. Google Translate: http://translate.google.com
  6. Targoman: http://targoman.com