برچسبگذاری جزء کلام
در زبانشناسی پیکرهای، برچسبگذاری جزء کلام (به انگلیسی: Part-of-speech tagging) یا برچسبگذاری دستوری یا ابهامزدایی رده واژه، فرایند برچسبگذاری یک واژه در یک متن است، که آن برچسب متناظر با رده جزء کلامی خاص آن واژه میباشد.[۱] این تناظر بر اساس «تعریف واژه» و نیز «بافت واژه» (یعنی رابطه آن با واژههای مجاور و مرتبط در عبارت، جمله، یا بند (پاراگراف)) تعیین میشود.[۲]
- برای مثال شناسایی واژهها به عنوان «اسم»، «فعل»، «صفت»، «قید» و غیره نوعی برچسبگذاری جزء کلام است.[۲]
به برچسبزنی جزء کلام، برچسبگذاری POS، یا برچسبگذاری PoS، یا POST نیز میگویند.[۲]
بعضی کلمات ممکن است یک یا چند برچسب داشتهباشند. اگر یک کلمه بیش از یک برچسب داشتهباشد، نیاز به ابهامزدایی دارد.
برچسبگذاری اجزای کلام، بنا به روشِ انجام کار، هم بهصورت دستی انجام میشود و هم در آن از الگوریتمهای برچسبگذاری مختلفی استفاده میشود. ازجملهٔ این الگوریتمها میتوان به مدل مخفی مارکوف، الگوریتم باوم-ولچ، و برآورد درستنمایی بیشینه اشاره کرد.
تاکنون از روشهای برچسبگذاری گوناگونی در زبانهای مختلف استفاده شدهاست. این روشها را میتوان به دو دستهٔ اصلی تقسیمبندی کرد: اولین دسته روشهای آماری است که با استفاده از پیکرههای برچسبخورده انجام میشوند. دستهٔ دوم، روشهای غیرآماری است که با استفاده از یادگیری ماشین، برچسبگذاری را انجام میدهند.
تاریخچه
[ویرایش]پیکرهٔ براون
[ویرایش]اولین پیکرهٔ بزرگِ ساختهشده برای زبان انگلیسی، پیکرهٔ براون بودهاست. این پیکره در اواسط دههٔ ۱۹۶۰ میلادی در دانشگاه براون ایالات متحده ساخته شد. این پیکره دارای حدود یکمیلیون کلمه (۵۰۰ متنِ تقریباً ۲۰۰۰کلمهای) است که با استفاده از یک برنامه، که دارای فهرستی از برچسبهای مختلف بود، برچسبگذاری شد.
صحّت و درستیِ برچسبگذاری در پیکرهٔ براون ۷۰٪ بود. بعد از آن، خطاها بهصورت دستی در دانشگاه استنفورد ایالات متحده اصلاح شد که باعث بهبود کارایی آن شد.
استفاده از مدل مخفی مارکوف
[ویرایش]در اواسط دههٔ ۱۹۸۰ میلادی، محققان در اروپا شروع به استفاده از مدل پنهانِ مارکُف برای ابهامزدایی از برچسبگذاری اجزای کلام کردند.
جستارهای وابسته
[ویرایش]- ↑ "POS tags". Sketch Engine. Lexical Computing. 2018-03-27. Retrieved 2018-04-06.
- ↑ ۲٫۰ ۲٫۱ ۲٫۲ "Part-of-speech tagging". Wikipedia (به انگلیسی). 2020-02-15.