برچسب‌گذاری جزء کلام

در زبان‌شناسی پیکره‌ای، برچسب‌گذاری جزء کلام (به انگلیسی: Part-of-speech tagging) یا برچسب‌گذاری دستوری یا ابهام‌زدایی رده واژه، فرایند برچسب‌گذاری یک واژه در یک متن است، که آن برچسب متناظر با رده جزء کلامی خاص آن واژه می‌باشد.^[۱] این تناظر بر اساس «تعریف واژه» و نیز «بافت واژه» (یعنی رابطه آن با واژه‌های مجاور و مرتبط در عبارت، جمله، یا بند (پاراگراف)) تعیین می‌شود.^[۲]

برای مثال شناسایی واژه‌ها به عنوان «اسم»، «فعل»، «صفت»، «قید» و غیره نوعی برچسب‌گذاری جزء کلام است.^[۲]

به برچسب‌زنی جزء کلام، برچسب‌گذاری POS، یا برچسب‌گذاری PoS، یا POST نیز می‌گویند.^[۲]

بعضی کلمات ممکن است یک یا چند برچسب داشته‌باشند. اگر یک کلمه بیش از یک برچسب داشته‌باشد، نیاز به ابهام‌زدایی دارد.

برچسب‌گذاری اجزای کلام، بنا به روشِ انجام کار، هم به‌صورت دستی انجام می‌شود و هم در آن از الگوریتم‌های برچسب‌گذاری مختلفی استفاده می‌شود. ازجملهٔ این الگوریتم‌ها می‌توان به مدل مخفی مارکوف، الگوریتم باوم-ولچ، و برآورد درست‌نمایی بیشینه اشاره کرد.

تاکنون از روش‌های برچسب‌گذاری گوناگونی در زبان‌های مختلف استفاده شده‌است. این روش‌ها را می‌توان به دو دستهٔ اصلی تقسیم‌بندی کرد: اولین دسته روش‌های آماری است که با استفاده از پیکره‌های برچسب‌خورده انجام می‌شوند. دستهٔ دوم، روش‌های غیرآماری است که با استفاده از یادگیری ماشین، برچسب‌گذاری را انجام می‌دهند.

تاریخچه[ویرایش]

پیکرهٔ براون[ویرایش]

اولین پیکرهٔ بزرگِ ساخته‌شده برای زبان انگلیسی، پیکرهٔ براون بوده‌است. این پیکره در اواسط دههٔ ۱۹۶۰ میلادی در دانشگاه براون ایالات متحده ساخته شد. این پیکره دارای حدود یک‌میلیون کلمه (۵۰۰ متنِ تقریباً ۲۰۰۰کلمه‌ای) است که با استفاده از یک برنامه، که دارای فهرستی از برچسب‌های مختلف بود، برچسب‌گذاری شد.

صحّت و درستیِ برچسب‌گذاری در پیکرهٔ براون ۷۰٪ بود. بعد از آن، خطاها به‌صورت دستی در دانشگاه استنفورد ایالات متحده اصلاح شد که باعث بهبود کارایی آن شد.

استفاده از مدل مخفی مارکوف[ویرایش]

در اواسط دههٔ ۱۹۸۰ میلادی، محققان در اروپا شروع به استفاده از مدل پنهانِ مارکُف برای ابهام‌زدایی از برچسب‌گذاری اجزای کلام کردند.

جستارهای وابسته[ویرایش]

این یک مقالهٔ خرد علوم رایانه است. می‌توانید با گسترش آن به ویکی‌پدیا کمک کنید.

↑ "POS tags". Sketch Engine. Lexical Computing. 2018-03-27. Retrieved 2018-04-06.
↑ ^۲٫۰ ^۲٫۱ ^۲٫۲ "Part-of-speech tagging". Wikipedia (به انگلیسی). 2020-02-15.

[1] "POS tags". Sketch Engine. Lexical Computing. 2018-03-27. Retrieved 2018-04-06.

[:0-2] ۲٫۰ ^۲٫۱ ^۲٫۲ "Part-of-speech tagging". Wikipedia (به انگلیسی). 2020-02-15.

[۱]

[۲]

ن ب و پردازش زبان‌های طبیعی
شرایط عمومی	پیکره متنی Speech corpus کلمات توقف مدل بسته کلمات Ai-complete ان-گرم (Bigram, Trigram)
متن‌کاوی	Text segmentation برچسب‌زنی اجزای کلام Text chunking Compound term processing Collocation extraction Stemming Lemmatisation Named-entity recognition Coreference resolution تجزیه و تحلیل احساسات Concept mining تجزیه‌کننده Word sense disambiguation Terminology extraction Truecasing
خلاصه‌سازی خودکار	Multi-document summarization Sentence extraction Text simplification
ترجمه ماشینی	ترجمه به کمک کامپیوتر Example-based Rule-based
شناسایی خودکار و ضبط داده‌ها	بازشناسی گفتار متن به گفتار نویسه‌خوان نوری Natural language generation
مدل عناوین	Pachinko allocation تخصیص پنهان دیریکله آنالیز پنهان مفهومی
بررسی به کمک کامپیوتر	Automated essay scoring Concordancer Grammar checker Predictive text غلط‌یاب Syntax guessing
زبان طبیعی رابط کاربر	دستیار شخصی هوشمند ربات سخنگو Interactive fiction Question answering