تجزیه‌کننده آماری

از ویکی‌پدیا، دانشنامهٔ آزاد

تجزیه کننده آماری یکی از روش های تجزیه (فاز تحلیل نحوی) پردازش زبان طبیعی است. وجه مشترک این روش ها به این صورت است که قواعد دستور زبان را به یک احتمال مرتبط می کند. در زبان شناسی محاسباتی معمولا قواعد دستور زبان با تعریف جملات معتبر در یک زبان دیده می شود. در این روش، ایده ربط دادن هر قاعده با یک احتمال، فرکانس تقریبی هر قاعده گرامری معین و با کم کردن آن، احتمال تجزیه کامل یک جمله را فراهم می کند. (ربط دادن یک احتمال به یک قاعده زبان گرامر امکان پذیر است، ولی استفاده از آن قاعده زبان در یک درخت تجزیه و محاسبه احتمال درخت تجزیه بر اساس قواعد آن زبان کاهشی است. ) با استفاده از این روش ، تجزیه کننده های آماری برای جستجو در فضایی از تمام تجزیه های قاعده های مشخص شده و محاسبه احتمال آن ها برای به دست آوردن محتمل ترین تجزیه یک جمله استفاده می کنند. یکی از روش های رایج الگوریتم Viterbi برای جستجوی محتمل ترین تجزیه است.[۱]

مثلا در این زمینه میتوان به جستجو اشاره کرد که کاربرد آن در الگوریتم های جستجو در هوش مصنوعی است .[۲]

مثلا، به جمله "The can can hold water" توجه کنید. خواننده فوراً متوجه می شود که یک چیز به نام "can" وجود دارد و این چیز دارد عمل "can" را انجام می دهد (یعنی می تواند). و چیزی که جسم می تواند آن را انجام دهد عمل «hold» به معنی نگه داشتن است. و چیزی که آن جسم میتواند نگه دارد «water» به معنی آب است. با استفاده از قواعد دستور زبان، "The can" یک عبارت اسمی است که از یک فعل و یک اسم تشکیل شده است، و "can hold water" یک عبارت فعلی است که خود از یک فعل و یک عبارت فعلی دیگر تشکیل شده است. اما آیا فقط جمله را به این صورت می تواند معنا کرد؟ یقینا کن‌کن می تواند یک اسم معتبر باشد که به نوعی رقص اشاره کند، و "hold water" فعل عبارت باشد، اگر چه اجباری معنای جمله ترکیبی است غیر آشکار است. این فقدان معنا توسط اکثر زبان شناسان به عنوان یک مشکل تلقی نمی شود (برای بحث در این مورد، نگاه کنید به ایده های سبز بی رنگ با عصبانیت می خوابند ) اما از دیدگاه عمل گرا بهتر است به جای تفسیر دوم و آماری، تفسیر اول را به دست آوریم. با رتبه بندی تفاسیر بر اساس احتمال آنها به این امر دست یابید.

(در این مثال فرض های مختلفی در مورد دستور زبان گرفته شده است، مانند اشتقاق ساده از چپ به راست به جای سرگردانی، استفاده از عبارت های اسمی به جای عبارت های تعیین کننده ی مد روز، و عدم جلوگیری از بررسی نوع یک اسم عینی که با یک عبارت فعلی انتزاعی ترکیب شده است. هیچ کدام از این فرض ها بر تز استدلال تاثیر گذار نیستند و با استفاده از هرکدام از فرمالیسم دستوری دیگر نیز می توان استدلال قابل مقایسه ای را ایجاد کرد. )

معمولا روش هایی وجود دارند که الگوریتم های تجزیه آماری از آنها استفاده می کنند. در صورتیکه الگوریتم هایی که از این روش استفاده می کنند بسیار کم هستند ولی از زمینه های کلی دید خوبی را ارائه می دهند. بیشتر الگوریتم های تجزیه آماری بر اساس مدل اصلاح شده تجزیه یک نمودار کار می کنند. برای پشتیبانی تعداد بسیار زیادی از قوانین گرامری و بنابراین فضای جستجو این تغییرات ضروری هستند و معمولا شامل استفاده از الگوریتم‌های هوش مصنوعی کلاسیک برای جستجوی جامع سنتی هستند. برخی از نمونه‌های بهینه سازی فقط برای جستجوی زیرمجموعه‌ های احتمالی از فضای جستجو ( جستجوی پشته‌ای )، برای بهینه‌سازی احتمال جستجو ( الگوریتم Baum-Welch ) و برای کنار گذاشتن تجزیه‌هایی هستند که بیش از حد مشابه یکدیگر هستند که نمی‌توان آنها را جداگانه بررسی کرد ( الگوریتم Viterbi ).

همچنین ببینید[ویرایش]

  1. https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1086/handouts/SLoSP-2008-4-1up.pdf
  2. https://arxiv.org/abs/1510.07193