پیکره متنی ئاسوسافت
پیکرهٔ متنیِ ئاسوسافت (به کردی سورانی: ئاسۆسافت) اولین پیکرهٔ متنیِ حجیم زبان کردی سورانی است که توسط گروه پژوهشیِ ئاسوسافت (ئاسۆسافت) گردآوری و پردازش شدهاست. این پیکره دربردارندهٔ ۴۵۸٬۰۰۰ سند متنیِ زبان کردی سورانی (کردی مرکزی) است که عمدتاً از وبگاهها، روزنامهها، کتاب و مجلات کردی جمعآوری شدهاست. پیکرهٔ ئاسوسافت حاوی ۱۸۸ میلیون نشانه است که حدود ۲۲ درصد از این پیکره دارای برچسب موضوعیِ متون است و میتوان از آن برای دستهبندی موضوعیِ متون استفاده کرد. علاوه بر این، از پیکره برای پژوهشهای زبانشناسی و سایر حوزههای پردازی زبان طبیعی، مانند بازشناسی گفتار، استخراج مدل زبانی، و استخراج واژهنامه میتوان استفاده کرد.[۱][۲][۳]
منابع[ویرایش]
- ↑ Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, , fqy074, https://doi.org/10.1093/llc/fqy074
- ↑ «نسخه آرشیو شده». بایگانیشده از اصلی در ۹ مارس ۲۰۱۹. دریافتشده در ۱۶ مارس ۲۰۱۹.
- ↑ https://github.com/AsoSoft/AsoSoft-Text-Corpus