متن پر سر و صدا

از ویکی‌پدیا، دانشنامهٔ آزاد

متن پر سر و صدا متنی است که بین شکل سطحی نمایش کدگذاری شده متن و متن مورد نظر، صحیح یا اصلی تفاوت دارد.[۱] نویز ممکن است به دلیل اشتباهات تایپی یا عبارات محاوره ای باشد که همیشه در زبان طبیعی وجود دارد و معمولاً کیفیت داده‌ها را به گونه ای کاهش می‌دهد که باعث می‌شود متن برای پردازش خودکار رایانه‌ها از جمله پردازش زبان طبیعی کمتر در دسترس باشد. نویز همچنین ممکن است از طریق یک فرایند استخراج (به عنوان مثال، رونویسی یا OCR) از رسانه‌های غیر از متون الکترونیکی اصلی وارد شده باشد.[۲]

استفاده از زبان در گفتمان‌های رایانه‌ای، مانند چت‌ها، ایمیل‌ها و متن‌های پیام کوتاه، به‌طور قابل‌توجهی با فرم استاندارد زبان متفاوت است. تمایل به طول پیام کوتاه‌تر که تایپ سریع‌تر را تسهیل می‌کند و نیاز به وضوح معنایی، ساختار این متن مورد استفاده در چنین گفتمان‌هایی را شکل می‌دهد.

تحلیلگران مختلف کسب و کار تخمین می‌زنند که داده‌های بدون ساختار حدود ۸۰ درصد از کل داده‌های سازمانی را تشکیل می‌دهند. بخش بزرگی از این داده‌ها شامل رونوشت‌های چت، ایمیل‌ها و سایر ارتباطات داخلی و خارجی غیررسمی و نیمه رسمی است. معمولاً چنین متنی برای مصرف انسان در نظر گرفته شده‌است، اما - با توجه به حجم داده‌ها - پردازش دستی و ارزیابی آن منابع عملاً دیگر امکان‌پذیر نیست. این امر نیاز به روش‌های متن کاوی قوی را افزایش می‌دهد.

تکنیک‌های کاهش نویز[ویرایش]

استفاده از غلط‌گیر املا و چک‌کننده دستور زبان می‌تواند میزان نویز متن تایپ‌شده را کاهش دهد. بسیاری از واژه پردازها این را در ابزار ویرایش گنجانده‌اند. جستجوی آنلاین Google شامل یک موتور پیشنهاد عبارت جستجو برای راهنمایی کاربران در هنگام اشتباه در جستارهای خود است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. Knoblock, C. , Lopresti, D. , Roy, S. , Subramaniam, L. V. (2007). "Special Issue on Noisy Text Analytics". International Journal on Document Analysis and Recognition. 10 (3–4): 127–128. doi:10.1007/s10032-007-0058-9.{{cite journal}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)
  2. Vinciarelli, A. (2005). "Noisy text categorization". IEEE Transactions on Pattern Analysis and Machine Intelligence. 27 (12): 1882–1895. doi:10.1109/TPAMI.2005.248. PMID 16355657.