تاریخچه پردازش زبان طبیعی

از ویکی‌پدیا، دانشنامهٔ آزاد

تاریخچه پردازش زبان طبیعی پیشرفت های پردازش زبان طبیعی را توصیف می کند (Outline of natural language processing). این تاریخچه، همپوشانی هایی با تاریخچه ترجمه ماشینی، تاریخچه تشخیص گفتار و تاریخچه هوش مصنوعی وجود دارد.

تحقیق و توسعه

تاریخچه ترجمه ماشینی به قرن هفدهم بر می گردد، زمانی که فیلسوفانی مانند لایب نیتس و دکارت پیشنهاداتی را برای کد هایی ارائه کردند که کلمات را بین زبان ها مرتبط می کرد. همه این پیشنهادات در حد تئوری باقی ماندند و هیچ یک به توسعه ی ماشین واقعی منجر نشد.

اولین حق ثبت اختراع برای "ماشین های ترجمه" در اواسط دهه 1930 درخواست شد. یک پیشنهاد، توسط ژرژ آرتسرونی ، صرفاً یک فرهنگ لغت دوزبانه خودکار با استفاده از نوار کاغذی بود . پیشنهاد دیگر، توسط پیتر ترویانسکی ، یک روسی ، مفصل تر بود. هم شامل فرهنگ لغت دوزبانه و هم روشی برای پرداختن به نقش های دستوری بین زبان ها بر اساس اسپرانتو بود .

در سال 1950، آلن تورینگ مقاله معروف خود را با عنوان " ماشین آلات محاسباتی و هوش " منتشر کرد که آنچه را که امروزه آزمون تورینگ نامیده می شود به عنوان معیاری برای هوش پیشنهاد می کند. این معیار به توانایی یک برنامه رایانه ای برای جعل هویت انسان در یک مکالمه مکتوب بلادرنگ با یک قاضی انسانی بستگی دارد، به اندازه ای که قاضی قادر به تشخیص قابل اعتماد نباشد. - فقط بر اساس محتوای مکالمه - بین برنامه و یک انسان واقعی.

در سال 1957، ساختارهای نحوی نوام چامسکی ، زبان‌شناسی را با « گرامر جهانی » متحول کرد، سیستمی مبتنی بر قانون از ساختارهای نحوی. [۱]

آزمایش جورج تاون در سال 1954 شامل ترجمه تمام اتوماتیک بیش از شصت جمله روسی به انگلیسی بود. نویسندگان ادعا کردند که ظرف سه یا پنج سال، ترجمه ماشینی یک مشکل حل خواهد شد. [۲] با این حال، پیشرفت واقعی بسیار کندتر بود، و پس از گزارش ALPAC در سال 1966، که نشان داد تحقیقات ده ساله نتوانسته است انتظارات را برآورده کند، بودجه برای ترجمه ماشینی به طور چشمگیری کاهش یافت. تحقیقات کمی در زمینه ترجمه ماشینی تا اواخر دهه 1980 انجام شد، زمانی که اولین سیستم های ترجمه ماشینی آماری توسعه یافتند.

برخی از سیستم‌های موفق NLP که در دهه 1960 توسعه یافتند ، SHRDLU بودند، یک سیستم زبان طبیعی که در « جهان‌های بلوکی » محدود با واژگان محدود کار می‌کرد.

در سال 1969 راجر شانک نظریه وابستگی مفهومی را برای درک زبان طبیعی معرفی کرد. [۳] این مدل، تا حدی تحت تأثیر کار سیدنی لمب ، به طور گسترده توسط دانشجویان شانک در دانشگاه ییل ، مانند رابرت ویلنسکی، وندی لنرت، و جانت کولودنر مورد استفاده قرار گرفت .

در سال 1970، ویلیام آ. وودز شبکه انتقال افزوده (ATN) را برای نمایش ورودی زبان طبیعی معرفی کرد. [۴] به جای قوانین ساختار عبارت، ATNها از مجموعه ای معادل از خودکارهای حالت محدود استفاده کردند که به صورت بازگشتی فراخوانی می شدند. ATN ها و فرمت عمومی تر آنها به نام "ATN های عمومی" برای چندین سال مورد استفاده قرار گرفتند. در طول دهه 1970، بسیاری از برنامه نویسان شروع به نوشتن «هستی شناسی های مفهومی» کردند، که اطلاعات دنیای واقعی را به داده های قابل درک کامپیوتری ساختار می داد. به عنوان مثال MARGIE (Schank، 1975)، SAM (Cullingford، 1978)، PAM (Wilensky، 1978)، TaleSpin (Meehan، 1976)، QUALM (Lehnert، 1977)، سیاست (Carbonell، 1979)، و Plotits (8Lehnits) هستند. ). در طول این زمان، بسیاری از چتبات جمله نوشته شده بود PARRY ، Racter و Jabberwacky .

تا دهه 1980، اکثر سیستم های NLP بر اساس مجموعه های پیچیده ای از قوانین دست نوشته بودند. با شروع از اواخر دهه 1980، با معرفی الگوریتم های یادگیری ماشینی برای پردازش زبان، انقلابی در NLP رخ داد. این امر هم به دلیل افزایش مداوم قدرت محاسباتی ناشی از قانون مور و هم کاهش تدریجی تسلط نظریات زبان‌شناسی چامسکی (مثلاً دستور زبان تحولی ) بود، که زیربنای نظری آن نوعی از زبان‌شناسی پیکره‌ای را که زیربنای رویکرد یادگیری ماشینی است، منصرف کرد. پردازش زبان [۵] برخی از اولین الگوریتم‌های یادگیری ماشینی مورد استفاده، مانند درخت‌های تصمیم ، سیستم‌هایی از قواعد سخت «اگر-آنگاه» شبیه به قوانین دست‌نویس موجود تولید کردند. با این حال، تحقیقات به طور فزاینده ای بر روی مدل های آماری متمرکز شده است، که تصمیمات نرم و احتمالی را بر اساس ضمیمه وزن های واقعی به ویژگی هایی که داده های ورودی را تشکیل می دهند، می گیرند. مدل‌های زبان حافظه پنهان که اکنون بسیاری از سیستم‌های تشخیص گفتار بر آن‌ها تکیه دارند، نمونه‌هایی از این مدل‌های آماری هستند. چنین مدل‌هایی معمولاً وقتی ورودی ناآشنا به آنها داده می‌شود، به ویژه ورودی‌هایی که حاوی خطا هستند (همانطور که برای داده‌های دنیای واقعی بسیار رایج است)، قوی‌تر هستند و زمانی که در یک سیستم بزرگ‌تر شامل وظایف فرعی متعدد ادغام می‌شوند، نتایج قابل اعتمادتری تولید می‌کنند.

بسیاری از موفقیت‌های قابل توجه اولیه در زمینه ترجمه ماشینی ، به‌ویژه به دلیل کار در IBM Research، که در آن مدل‌های آماری پیچیده‌تر به‌طور متوالی توسعه یافتند، اتفاق افتاد. این سیستم‌ها می‌توانستند از مجموعه‌های متنی چندزبانه موجود که توسط پارلمان کانادا و اتحادیه اروپا در نتیجه قوانینی که خواستار ترجمه کلیه مراحل دولتی به همه زبان‌های رسمی نظام‌های دولتی مربوطه بودند، تهیه شده بود، استفاده کنند. با این حال، اکثر سیستم‌های دیگر به مجموعه‌هایی وابسته بودند که به‌طور خاص برای وظایف پیاده‌سازی شده توسط این سیستم‌ها توسعه یافته بودند، که یک محدودیت عمده در موفقیت این سیستم‌ها بود (و اغلب ادامه می‌دهد). در نتیجه، تحقیقات زیادی روی روش‌های یادگیری مؤثرتر از مقادیر محدود داده انجام شده است.

تحقیقات اخیر به طور فزاینده ای بر روی الگوریتم های یادگیری بدون نظارت و نیمه نظارتی متمرکز شده است. چنین الگوریتم‌هایی می‌توانند از داده‌هایی یاد بگیرند که به صورت دستی با پاسخ‌های مورد نظر حاشیه‌نویسی نشده‌اند، یا از ترکیبی از داده‌های حاشیه‌نویسی و غیرمشخصه استفاده کنند. به طور کلی، این کار بسیار دشوارتر از یادگیری تحت نظارت است و معمولاً نتایج با دقت کمتری را برای مقدار معینی از داده های ورودی ایجاد می کند. با این حال، حجم عظیمی از داده‌های بدون تفسیر در دسترس است (از جمله، در میان موارد دیگر، کل محتوای شبکه جهانی وب )، که اغلب می‌تواند نتایج ضغیف تری را جبران کند.

نرم افزار

مراجع توضیحات سازنده سال نرم افزار
شامل ترجمه کاملا خودکار بیش از شصت جمله روسی به انگلیسی است. Georgetown University and IBM ۱۹۵۴ Georgetown experiment
می تواند مسائل جبر دبیرستان را حل کند. Daniel Bobrow ۱۹۶۴ STUDENT
شبیه‌سازی یک روان‌درمانگر راجریایی، که پاسخ او را با چند قاعده گرامری بازنویسی می‌کند. Joseph Weizenbaum ۱۹۶۴ ELIZA
یک سیستم زبان طبیعی که در «جهان‌های بلوکی» محدود با واژگان محدود کار می‌کرد، بسیار خوب کار می‌کرد Terry Winograd ۱۹۷۰ SHRDLU
chatterbot Kenneth Colby ۱۹۷۲ PARRY
Sondheimer et al. ۱۹۷۴ KL-ONE
Roger Schank ۱۹۷۵ MARGIE
Meehan ۱۹۷۶ TaleSpin (software)
Lehnert QUALM
یک رابط زبان طبیعی به پایگاه داده ای از اطلاعات مربوط به کشتی های نیروی دریایی ایالات متحده. Hendrix ۱۹۷۸ LIFER/LADDER
Cullingford ۱۹۷۸ SAM (software)
Robert Wilensky ۱۹۷۸ PAM (software)
Carbonell ۱۹۷۹ Politics (software)
Lehnert ۱۹۸۱ Plot Units (software)
چتربات با هدف "شبیه سازی چت طبیعی انسان به شیوه ای جالب، سرگرم کننده و طنز". Rollo Carpenter ۱۹۸۲ Jabberwacky
McDonald ۱۹۸۲ MUMBLE (software)
رباتی که به طور تصادفی نثر انگلیسی را تولید می کند. William Chamberlain and Thomas Etter ۱۹۸۳ Racter
Lytinen ۱۹۸۴ MOPTRANS [۶]
Wilensky ۱۹۸۶ KODIAK (software)
Hirst ۱۹۸۷ Absity (software)
Creative Labs ۱۹۹۱ Dr. Sbaitso
سیستم پاسخگویی به سوال که برنده مسابقه jeopardy شد! چالش، شکست دادن بهترین بازیکنان انسانی در فوریه 2011 بود. IBM ۲۰۰۶ Watson (artificial intelligence software)
دستیار مجازی توسعه یافته توسط اپل. Apple ۲۰۱۱ Siri
دستیار مجازی توسعه یافته توسط مایکروسافت. Microsoft ۲۰۱۴ Cortana
دستیار مجازی توسعه یافته توسط آمازون. Amazon ۲۰۱۴ Amazon Alexa
دستیار مجازی توسعه یافته توسط گوگل. Google ۲۰۱۶ Google Assistant

منابع-کتاب شناسی

  • Crevier, Daniel (1993), AI: The Tumultuous Search for Artificial Intelligence, New York, NY: BasicBooks, شابک ‎۰−۴۶۵−۰۲۹۹۷−۳
  • McCorduck, Pamela (2004), Machines Who Think (2nd ed.), Natick, MA: A. K. Peters, Ltd., ISBN 978-1-56881-205-2, OCLC 52197627.
  • Russell, Stuart J.; Norvig, Peter (2003), Artificial Intelligence: A Modern Approach (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, ISBN 0-13-790395-2.
  1. "SEM1A5 - Part 1 - A brief history of NLP". Retrieved 2010-06-25.
  2. Hutchins, J. (2005)
  3. Roger Schank, 1969, A conceptual dependency parser for natural language Proceedings of the 1969 conference on Computational linguistics, Sång-Säby, Sweden, pages 1-3
  4. Woods, William A (1970). "Transition Network Grammars for Natural Language Analysis". Communications of the ACM 13 (10): 591–606
  5. Chomskyan linguistics encourages the investigation of "corner cases" that stress the limits of its theoretical models (comparable to pathological phenomena in mathematics), typically created using thought experiments, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in corpus linguistics. The creation and use of such corpora of real-world data is a fundamental part of machine-learning algorithms for NLP. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called "poverty of the stimulus" argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.
  6. Janet L. Kolodner, Christopher K. Riesbeck; Experience, Memory, and Reasoning; Psychology Press; 2014 reprint