ابهام‌زدایی مرز جمله

از ویکی‌پدیا، دانشنامهٔ آزاد

ابهام‌زدایی مرز جمله (به انگلیسی: Sentence boundary disambiguation، مخفف: SBD)، همچنین شناخته شده تحت عناوین جمله‌شکنی (به انگلیسی: Sentence breaking) یا شناسایی مرز جمله (به انگلیسی: Sentence boundary detection) مسئلهٔ تشخیص این است که در زمینه پردازش زبان طبیعی جمله‌ها کجا شروع می‌شوند و پایان می‌یابند.

اغلب، ابزارهای پردازش زبان طبیعی، به دلایلی لازم دارند تا ورودیشان به جملات تقسیم شده باشد؛ ولی تشخیص مرز جمله چالش‌برانگیز است زیرا نشانه‌های سجاوندی اغلب مبهمند. برای مثال در بعضی زبان‌ها، یک نقطه می‌تواند نمایان‌گر یک کوته‌نوشت، ممیز اعشاری، یک سه‌نقطه، یا یک آدرس ایمیل باشند – نه پایان یک جمله. در حدود ۴۷٪ نقطه‌ها در جنگ (یه انگلیسی: Corpus) وال‌استریت جورنال نشان دهنده کوته‌نوشت‌ها هستند.[۱]

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. E. STAMATATOS; N. FAKOTAKIS & G. KOKKINAKIS. "1 AUTOMATIC EXTRACTION OF RULES FOR SENTENCE BOUNDARY DISAMBIGUATION" بایگانی‌شده در ۴ مارس ۲۰۱۶ توسط Wayback Machine. University of Patras. Retrieved 2009-01-03.