برچسب‌زنی اجزای کلام

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از برچسب گذاری اجزا کلام)
پرش به: ناوبری، جستجو

در زبانشناسی پیکره‌ای، برچسب‌گذاری اجزای کلام، درواقع عمل انتساب برچسب به کلمات تشکیل‌دهندۀ یک متن یا یک پیکره است. این برچسب‌گذاری براساس نقش آن کلمه در متن، مانند اسم، فعل، قید، صفت، و غیره صورت می‌گیرد. بعضی کلمات ممکن است یک یا چند برچسب داشته‌باشند. اگر یک کلمه بیش از یک برچسب داشته‌باشد، نیاز به ابهام‌زدایی دارد.

برچسب‌گذاری اجزای کلام، بنا به روشِ انجام کار، هم به‌صورت دستی انجام می‌شود و هم در آن از الگوریتم‌های برچسب‌گذاری مختلفی استفاده می‌شود. ازجملۀ این الگوریتم‌ها می‌توان به مدل مخفی مارکوف، الگوریتم باوم-ولچ، و برآورد درست‌نمایی بیشینه اشاره کرد.

تاکنون از روش‌های برچسب‌گذاری گوناگونی در زبان‌های مختلف استفاده شده‌است. این روش‌ها را می توان به دو دستۀ اصلی تقسیم‌بندی کرد: اولین دسته روش‌های آماری است که با استفاده از پیکره‌های برچسب‌خورده انجام می‌شوند. دستۀ دوم، روش‌های غیرآماری است که با استفاده از یادگیری ماشین، برچسب‌گذاری را انجام می‌دهند.

تاریخچه[ویرایش]

پیکرۀ براون[ویرایش]

اولین پیکرۀ بزرگِ ساخته‌شده برای زبان انگلیسی، پیکرۀ براون بوده‌است. این پیکره در اواسط دهۀ ۶۰ میلادی در دانشگاه براون ایالات متحده ساخته شد. این پیکره دارای حدود یک‌میلیون کلمه (500 متنِ تقریباً 2000کلمه‌ای) است که با استفاده از یک برنامه که دارای فهرستی از برچسب‌های مختلف بود، برچسب‌گذاری شد.

صحّت و درستیِ برچسب‌گذاری در پیکرۀ براون ۷۰% بود. بعد از آن، خطاها به‌صورت دستی در دانشگاه استنفورد آمریکا اصلاح شد که باعث بهبود کارایی آن شد.

استفاده از مدل مخفی مارکوف[ویرایش]

در اواسط دهۀ ۸۰ میلادی، محققان در اروپا شروع به استفاده از مدل مخفی مارکوف برای ابهام‌زدایی از برچسب‌گذاری اجزای کلام کردند.

جستارهای وابسته[ویرایش]