پردازش زبانهای طبیعی
پردازش زبانهای طبیعی یکی از زیرشاخههای بااهمیت در حوزه گسترده هوش مصنوعی، و نیز در دانش زبانشناسی است. تلاش عمده در این زمینه ماشینی کردن فرایند درک و برداشت مفاهیم بیان گردیده با یک زبان طبیعی انسانیست. به تعریف دقیقتر پردازش زبانهای طبیعی عبارت است از استفاده از رایانه برای پردازش زبان گفتاری و نوشتاری. با استفاده از آن میتوان به ترجمه زبانها پرداخت، از صفحات وب و بانکهای اطلاعاتی نوشتاری جهت پاسخ دادن به پرسشها استفاده کرد، یا با دستگاهها مثلاً برای مشورت گرفتن به گفتگو پرداخت.[۱]
اینها تنها مثالهایی از کاربردهای متنوع پردازش زبانهای طبیعی هستند. گفتنیست هنوز سیستم کارآمدی برای پردازش زبانهای طبیعی به وجود نیامدهاست.[نیازمند منبع]
منظور از پردازش زبان طبيعي اين است كه كامپيوتري داشته باشيم تا قادر باشد زبان انسان را تحليل كند، بفهمد و حتي بتواند زبان طبيعي توليد كند. هدف اصلي در پردازش زبان طبيعي، ايجاد تئوري هايي محاسباتي از زبان، با استفاده از الگوريتمها و ساختارهاي داده اي موجود در علوم كامپيوتر است. بديهي است كه در راستاي تحقق اين هدف، نياز به دانشي وسيع از زبان است و علاوه بر محققان علوم كامپيوتر، نياز به دانش زبان شناسان نيز در اين حوزه مي باشد. با پردازش اطلاعات زباني مي توان آمار مورد نياز براي كار با زبان طبيعي را استخراج كرد. كاربردهاي پردازش زبان طبيعي به دو دسته كلي قابل تقسيم است: كاربردهاي نوشتاري و كاربردهاي گفتاري. از كاربردهاي نوشتاري آن مي توان به استخراج اطلاعاتي خاص از يك متن، ترجمه يك متن به زباني ديگر و يا يافتن مستنداتي خاص در يك پايگاه داده نوشتاري (مثلا يافتن كتابهاي مرتبط به هم در يك كتابخانه) اشاره كرد. نمونه هايي از كاربردهاي گفتاري پردازش زبان عبارتند از: سيستم هاي پرسش و پاسخ انسان با كامپيوتر، سرويس هاي اتوماتيك ارتباط با مشتري از طريق تلفن، سيستم هاي آموزش به دانش آموزان و يا سيستم هاي كنترلي توسط صدا. در سالهاي اخير اين حوزه تحقيقاتي توجه دانشمندان را به خود جلب كرده است و تحقيقات قابل ملاحظه اي در اين زمينه صورت گرفته است.
محتویات |
تاریخچه [ویرایش]
به طور کلی تاریخچه پردازش زبان طبیعی از دهه ۱۹۵۰ میلادی شروع میشود. در ۱۹۵۰ آلن تورینگ مقاله معروف خود را درباره آزمایش تورینگ که امروزه به عنوان ملاک هوشمندی شناخته میشود، منتشر ساخت.
محدودیتها [ویرایش]
پردازش زبانهای طبیعی رهیافت بسیار جذابی برای ارتباط بین انسان و ماشین محسوب میشود و در صورت عملی شدنش به طور کامل میتواند تحولات شگفتانگیزی را در پی داشتهباشد. سیستمهای قدیمی محدودی مانند SHRDLU که با واژههای محدود و مشخصی سر و کار داشتند، بسیار عالی عمل میکردند، به طوری که پژوهشگران را به شدت نسبت به این حوزه امیدوار کردهبودند. اما در روبهرویی با چالشهای جدیتر زبانی و پیچیدگیها و ابهامهای زبانها، این امیدها کمرنگ شدند. مسئلهٔ پردازش زبانهای طبیعی معمولاً یک مسئلهٔ AI-Complete محسوب میشود، چرا که محقق شدن آن به طور کامل مستلزم سطح بالایی از درک جهان خارج و حالات انسان برای ماشین است.
موانع اساسی [ویرایش]
- نیاز به درک معانی: رایانه برای آن که بتواند برداشت درستی از جملهای داشته باشد و اطلاعات نهفته در آن جمله را درک کند، گاهی لازم است که برداشتی از معنای کلمات موجود در جمله داشته باشد و تنها آشنایی با دستور زبان کافی نباشد. مثلاً جمله حسن سیب را نخورد برای این که کال بود. و جمله حسن سیب را نخورد برای این که سیر بود. ساختار دستوری کاملاً یکسانی دارند و تشخیص این که کلمات کال و سیر به حسن برمیگردند یا به سیب بدون داشتن اطلاعات قبلی درباره ماهیت حسن و سیب ممکن نیست.
- دقیق نبودن دستور زبانها: دستور هیچ زبانی آنقدر دقیق نیست که با استفاده از قواعد دستوری همیشه بتوان به نقش هر یک از اجزای جملههای آن زبان پی برد.
پردازش زبانهای طبیعی آمارگرا [ویرایش]
پردازش زبانهای طبیعی به شکل آمارگرا عبارت است از استفاده از روشهای تصادفی، احتمالاتی و آماری برای حل مسائلی مانند آنچه که در بالا ذکر شده. به خصوص از این روشها برای حل مسائلی استفاده میکنند که ناشی از طولانی بودن جملات و زیاد بودن تعداد حالات ممکن برای نقش کلمات هستند. این روشها معمولاً مبتنی بر نمونههای متنی و مدلهای مارکف هستند.
کارکردهای مهم پردازش زبانهای طبیعی [ویرایش]
- خلاصهسازی خودکار
- استخراج اطلاعات
- بازیابی اطلاعات
- ترجمه ماشینی
- تشخیص نوری نویسهها
- تشخیص گفتار
- ویرایش
تاریخچه [ویرایش]
نخستین تلاشها برای ترجمه توسط رایانه ناموفق بودند، به طوری که ناامیدی بنگاههای تأمین بودجهٔ پژوهش از این حوزه را نیز در پی داشتند. پس از اولین تلاشها آشکار شد که پیچیدگی زبان بسیار بیشتر از چیزیست که پژوهشگران در ابتدا پنداشتهبودند. بیگمان حوزهای که پس از آن برای استعانت مورد توجه قرار گرفت زبانشناسی بود. اما در آن دوران نظریهٔ زبانشناسی وجود نداشت که بتواند کمک شایانی به پردازش زبانها بکند. در سال ۱۹۵۷ کتاب ساختارهای نحوی اثر نوام چامسکی زبانشناس جوان آمریکایی که از آن پس به شناختهشدهترین چهرهٔ زبانشناسی نظری تبدیل شد به چاپ رسید.[۲] از آن پس پردازش زبان با حرکتهای تازهای دنبال شد اما هرگز قادر به حل کلی مسئله نشد.
جستارهای وابسته [ویرایش]
پانویس [ویرایش]
منابع [ویرایش]
-
Crystal D., The Cambridge Encyclopedia of Language, 2nd edition, Cambridge University Press, ۱۹۹۶. ISBN ۰-۵۲۱-۵۵۹۶۷-۷
-
Manning, C. D., and Schutze, H., Foundations of Statistical Natural Language Processing, 5th edition, The MIT Press, ۲۰۰۲. ISBN 0-262-13360-1
پیوند به بیرون [ویرایش]
- مرجع دادگان زبان فارسی پیکرههای مورد استفاده در پردازش رایانهای زبان فارسی
- مرکز مطالعات زبان و اطلاعات، استانفورد
- تهیه بانک پرحجم واژگان برای کاربرد در نظامهای متن سازی و سازه یابی و بازیابی اطلاعات، ترجمه: سید مهدی سمائی، مرکز اطلاعات و مدارک علمی ایران
- کتاب «زبان، پیوستگی و صورت»