برچسب‌زنی اجزای کلام

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از برچسب گذاری اجزا کلام)
پرش به: ناوبری، جستجو

در زبانشناسی پیکره ای، برچسب گذاری اجزا کلام، در واقع عمل انتساب برچسب به کلمات تشکیل دهنده یک متن یا یک پیکره است. این برچسب گذاری یر اساس معنا و نقش آن کلمه در متن مانند اسم، فعل، قید، صفت و غیره صورت می گیرد. هر کلمه می تواند یک یا چندین برچسب داشته باشد. اگر یک کلمه چند برچسب داشته باشد نیاز به ابهام زدایی دارد.

برچسب گذاری اجزا کلام هم به صورت دستی انجام می شود و هم از الگوریتم های برچسب گذاری مختلفی استفاده می کند. از جمله این الگوریتم ها می توان به مدل مخفی مارکوف، الگوریتم باوم-ولچ و برآورد درست‌نمایی بیشینه اشاره کرد.

تاکنون از روش های برچسب گذاری زیادی در زبان های مختلف استفاده شده است. این روش ها را می توان به دو دسته تقسیم بندی نمود. اولین دسته روش های آماری است که با استفاده از پیکره های برچسب خورده انجام می شوند. دسته دوم روش های غیر آماری می باشند که با استفاده از یادگیری ماشین، برچسب گذاری را انجام می دهند.

محتویات

تاریخچه [ویرایش]

پیکره براون [ویرایش]

اولین پیکره بزرگ ساخته شده برای زبان انگلیسی، پیکره براون بوده است. این پیکره در اواسط دهه ۶۰ میلادی در دانشگاه براون ساخته شد. این پیکره دارای حدود یک میلیون کلمه است که با استفاده از یک برنامه که دارای لیستی از برچسب های مختلف بود، برچسب گذاری شد.

صحت و درستی برچسب گذاری در این پیکره ۷۰% بود. بعد از آن خطاها به صورت دستی اصلاح شد که باعث بهبود کارایی آن شد.

استفاده از مدل مخفی مارکوف [ویرایش]

در اواسط دهه ۸۰ میلادی، محققان در اروپا شروع به استفاده از مدل مخفی مارکوف برای ابهام زدایی از برچسب گذاری اجزا کلام نمودند.

جستارهای وابسته [ویرایش]