برچسب‌زنی اجزای کلام

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

در زبان‌شناسی پیکره‌ای، برچسب‌گذاری اجزای کلام، درواقع عمل انتساب برچسب به کلمات تشکیل‌دهندهٔ یک متن یا یک پیکره است. این برچسب‌گذاری براساس نقش آن کلمه در متن، مانند اسم، فعل، قید، صفت، و غیره صورت می‌گیرد. بعضی کلمات ممکن است یک یا چند برچسب داشته‌باشند. اگر یک کلمه بیش از یک برچسب داشته‌باشد، نیاز به ابهام‌زدایی دارد.

برچسب‌گذاری اجزای کلام، بنا به روشِ انجام کار، هم به‌صورت دستی انجام می‌شود و هم در آن از الگوریتم‌های برچسب‌گذاری مختلفی استفاده می‌شود. ازجملهٔ این الگوریتم‌ها می‌توان به مدل مخفی مارکوف، الگوریتم باوم-ولچ، و برآورد درست‌نمایی بیشینه اشاره کرد.

تاکنون از روش‌های برچسب‌گذاری گوناگونی در زبان‌های مختلف استفاده شده‌است. این روش‌ها را می‌توان به دو دستهٔ اصلی تقسیم‌بندی کرد: اولین دسته روش‌های آماری است که با استفاده از پیکره‌های برچسب‌خورده انجام می‌شوند. دستهٔ دوم، روش‌های غیرآماری است که با استفاده از یادگیری ماشین، برچسب‌گذاری را انجام می‌دهند.

تاریخچه[ویرایش]

پیکرهٔ براون[ویرایش]

اولین پیکرهٔ بزرگِ ساخته‌شده برای زبان انگلیسی، پیکرهٔ براون بوده‌است. این پیکره در اواسط دههٔ ۱۹۶۰ میلادی در دانشگاه براون ایالات متحده ساخته شد. این پیکره دارای حدود یک‌میلیون کلمه (۵۰۰ متنِ تقریباً ۲۰۰۰کلمه‌ای) است که با استفاده از یک برنامه، که دارای فهرستی از برچسب‌های مختلف بود، برچسب‌گذاری شد.

صحّت و درستیِ برچسب‌گذاری در پیکرهٔ براون ۷۰٪ بود. بعد از آن، خطاها به‌صورت دستی در دانشگاه استنفورد ایالات متحده اصلاح شد که باعث بهبود کارایی آن شد.

استفاده از مدل مخفی مارکوف[ویرایش]

در اواسط دههٔ ۱۹۸۰ میلادی، محققان در اروپا شروع به استفاده از مدل مخفی مارکوف برای ابهام‌زدایی از برچسب‌گذاری اجزای کلام کردند.

جستارهای وابسته[ویرایش]