پیش‌نویس:شناسایی موجودیت‌های نام‌دار

از ویکی‌پدیا، دانشنامهٔ آزاد

"این مقاله در حال ترجمه از ویکی انگلیسی است. لطفا حذف نشود."

شناسایی موجودیت‌های نام‌دار (NER) (همچنین شناخته‌شده تحت عنوان (نام‌دار) موجودیت، گروه‌بندی موجودیت، و استخراج موجودیت) یک زیر وظیفه از استخراج اطلاعات است که سعی در یافتن و دسته‌بندی موجودیت‌های نام‌دار اشاره‌شده در متن بدون ساختار به دسته‌بندی‌های پیش‌تعریف شده مانند نام افراد، سازمان‌ها، مکان‌ها، کدهای پزشکی، اعلام زمان، مقادیر کمیتی، ارزش‌های پولی، درصدها، و غیره دارد.

بیشتر تحقیقات درباره سیستم‌های NER/NEE به صورت ساختار یافته به عنوان گرفتن یک بلوک متن بدون حاشیه، مانند این نمونه:

  • جیم 300 سهم شرکت ایسمه شرکت در سال 2006 را خرید.

و تولید کردن یک بلوک متن حاشیه دار که نام‌های موجودیت را برجسته می‌کند:

  • [جیم]شخص 300 سهم از [ایسمه شرکت]سازمان در [2006]زمان.

در این مثال، یک نام شخص متشکل از یک توکن، نام شرکتی با دو توکن و یک عبارت زمانی تشخیص داده و دسته‌بندی شده‌اند.

سیستم‌های NER با روز روزگار بهره‌ور برای زبان انگلیسی عملکرد نزدیک به انسانی ارائه می‌دهند. به عنوان مثال، بهترین سیستم ورودی MUC-7 93.39% از امتیاز F-measure را کسب کرد در حالی که ارزیاب‌های انسانی 97.60% و 96.95% را کسب کردند.

پلتفرم‌های شناسایی موجودیت‌های نام‌دار[ویرایش]

پلتفرم‌های قابل توجه NER شامل موارد زیر می‌شوند:

  • GATE از NER در بسیاری از زبان‌ها و دامنه‌ها جهت‌گیری کرده و به سادگی از طریق رابط گرافیکی و یک API جاوا قابل استفاده است.
  • OpenNLP شامل شناسایی موجودیت‌های نام‌دار بر اساس قوانین و آمار است.
  • SpaCy مدل‌های آماری سریع NER را ویژگی می‌کند و همچنین یک نمایشگر متنی موجودیت نام‌دار منبع‌باز.
  • مدل تبدیل‌کننده ویژگی‌های دسته‌بندی توکن با استفاده از مدل‌های یادگیری عمیق را نشان می‌دهد.

تعریف مسئله[ویرایش]

در عبارت موجودیت نام‌دار، واژه نام‌دار وظیفه را به آن موجودیت‌ها محدود می‌کند که یک یا چند رشته، مانند کلمات یا عبارات، نسبتاً برای یک مرجع ایستاده‌اند. این ارتباط وثابت با معیارهای دقیق، همانند آنچه که توسط Kripke تعریف شده‌است، ارتباطی نزدیک دارد، هرچند در عمل NER با نام‌ها و مراجعی سرشار از نام‌ها که به اصطلاح فیلسوفی "ثابت" هستند، سر و کار دارد. به عنوان مثال، شرکت خودروسازی ایجاد‌شده توسط هنری فورد در سال ۱۹۰۳ ممکن است به عنوان فورد یا شرکت خودروسازی فورد اشاره شود، هرچند "فورد" همچنین ممکن است به افراد دیگری هم اشاره کند (مانند فورد). اشارات ثابت شامل نام‌های صحیح و همچنین اصطلاحاتی برای برخی از گونه‌ها و مواد زیست‌شناسی مشخص شده‌اند، اما ضمایر (مانند "آن"؛ برای مشاهده تعیین اشاره‌ی هم‌مرجع)، توضیحاتی که یک مرجع را بر اساس خصوصیات آن اشاره کرده است (برای مشاهده فعل به‌دیکتو و آب‌ری)، و نام‌های برای انواع چیزها نسبت به افراد (به عنوان مثال "بانک") از شماره‌دارها مستثنا هستند.

شناسایی کامل موجودیت‌های نام‌دار به طور معمول، مفهومی و شاید هم در اجراها، به عنوان دو مسئله متمایز: شناسایی نام‌ها و دسته‌بندی نام‌ها بر اساس نوع موجودیتی که به آنها ارجاع داده می‌شود (برای مثال، شخص، سازمان، یا مکان). مرحله اول به طور معمول به یک مسئله تقسیم‌بندی ساده سفارشی می‌دهد: نام‌ها به عنوان محدوده‌های متمایل توکن تعریف می‌شوند، بدون توده‌بندی، به طوری که "بانک امریکا" یک نام منفرد است، صرف نظر از اینکه درون این نام، زیررشته "امریکا" خود یک نام است. این مسئله تقسیم‌بندی شبیه به اجزاء است. مرحله دوم نیازمند انتخاب یک انتولوژی است که به وسیله آن دسته‌بندی دسته‌های چیزها عضو را سازماندهی کند.

عبارات زمانی و برخی از عبارات عددی (مانند پول، درصدها، و غیره) نیز ممکن است در زمینه وظیفه‌ی NER به عنوان موجودیت‌های نام‌دار در نظر گرفته شوند. در حالی که برخی از نمونه‌های این انواع مثال‌های خوبی از اشاره‌دهنده‌های ثابت هستند (مانند سال ۲۰۰۱)، همچنین بسیاری از آن‌ها اعتبار ندارند (به عنوان مثال، تعطیلات خودرا در "ژوئن" سپری می‌کنم). در صورت اول، سال ۲۰۰۱ به سال ۲۰۰۱ از تقویم گریگوری اشاره دارد. در صورت دوم، ممکن است برای ماه ژوئن از یک سال نامعین استفاده شود (ژوئن‌های گذشته، ژوئن بعدی، هر ژوئن، و غیره). استدلال می‌شود که تعریف موجودیت نام‌دار در چنین مواردی به دلایل عملی به یک معنی گسترده‌تر می‌رسد. تعریف واژه موجودیت‌نام‌دار از این رو به صورت دقیق و اغلب باید در زمینه‌ای که استفاده می‌شود توضیح داده‌شود.

ارزیابی رسمی[ویرایش]

وقتی معیارهای ارزیابی NER مورد بررسی قرار می‌گیرند، اندازه‌گیری‌های معمول به نام دقت، بازخوانی و امتیاز F1 تعریف شده‌اند. اما چندین مسئله باقی می‌ماند در اینکه چگونه ارزش‌های آنها محاسبه شود.

این اندازه‌گیری‌های آماری برای موارد واضح پیدا کردن یا از دست دادن یک موجودیت واقعی دقیقاً خوب کار می‌کنند؛ و برای پیدا کردن یک موجودیت غیر واقعی هم کارآمدند. با این حال، NER می‌تواند در بسیاری از حالت‌های دیگر شکست خورد، بسیاری از آن‌ها آنقدر که "جزئیاً صحیح" هستند، و نباید به عنوان یک موفقیت یا شکست کامل شمرده شوند. به عنوان مثال، شناسایی یک واقعیت واقعی، اما:

  • کمتر از توکن‌های مورد نظر دارد (به عنوان مثال، گم شدن آخرین توکن «جان اسمیت، دکتر»)
  • بیشتر از توکن‌های مورد نظر دارد (به عنوان مثال، اضافه کردن اولین کلمه «دانشگاه مریلند»)
  • تقسیم موجودیت‌های مجاور را به صورت مختلف انجام دهد (به عنوان مثال، با دیدگاه 2 در مقابل 3 موجودیت «اسمیت، جونز، رابینسون» را در نظر بگیرد)
  • نوعی اشتباه کاملاً اختصاص دهد (به عنوان مثال، یک اسم شخصی را یک سازمان فراخوانی کند)
  • نوع مرتبط اما ناقص را تعیین کند (به عنوان مثال، «ماده» در مقابل «دارو» یا «مدرسه» در مقابل «سازمان»)

شناسایی صحیح یک موجودیت، زمانی که کاربر انتظار داشت یک موجودیت با دامنه کوچکتر یا بزرگتر را ببیند (به عنوان مثال، شناسایی «جیمز مدیسون» به عنوان یک اسم شخصی، زمانی که قسمتی از «دانشگاه جیمز مدیسون» است). منظومه‌های NER برخی از آن‌ها تحمیل می‌کنند که هیچ‌گاه موجودیت‌ها نمی‌توانند همپوشانی داشته باشند یا در کنار هم قرار بگیرند، که این به این معناست که در برخی موارد، باید تصمیمات مشخص یا وظیفه‌ای گرفت.

یک روش بسیار ساده برای اندازه‌گیری دقت فقط شمارش آن است که چه مقدار از تمام توکن‌ها در متن به درستی یا به اشتباه به عنوان قسمتی از ارجاع‌های موجودیت شناخته شده‌اند (یا به عنوان موجودیت‌های نوع صحیح). این حداقل دارای دو مشکل است: اولاً، بیشتر توکن‌ها در متن واقعی قسمتی از نام موجودیت نیستند، بنابراین دقت پایه (همیشه پیش‌بینی "نه موجودیت") بسیار بالا است، معمولاً بیشتر از 90٪؛ و ثانیاً، اشتباه در پیش‌بینی عرض کامل نام یک موجودیت به درستی مجازات نمی‌شود (به عنوان مثال، پیدا کردن تنها نام اول فرد زمانی که نام خانوادگی او دنبال می‌شود ممکن است برابر با ½ دقت در نظر گرفته شود).

در کنفرانس‌های علمی همچون CoNLL، نوعی از امتیاز F1 به شکل زیر تعریف شده‌است:[9]

  • دقت تعداد دامنه‌های نام پیش‌بینی‌شده موجودیت که دقیقاً با دامنه‌ها در داده‌های ارزیابی استاندارد طلا همخطاب است تا دامنه‌ها، ارزیابی شده. یعنی هنگامی که [Person Hans] [Person Blick] پیش‌بینی شده است اما [Person Hans Blick] لازم بود، دقت برای نام پیش‌بینی شده صفر است. دقت سپس بر روی تمام نام‌های موجودیت پیش‌بینی شده میانگین گیری می‌شود.
  • بازخوانی همچنین تعداد نام‌ها در استاندارد طلا است که در همان محل در پیش‌بینی‌ها ظاهر می‌شوند.
  • امتیاز F1 میانگین هارمونیک این دو است.

از تعریف فوق نتیجه می‌گیرد که هر پیش‌بینی که یک توکن را از دست بدهد، شامل یک توکن سِرابی شود، یا نوع اشتباهی داشته باشد، یک خطای سخت است و مثبت برای هیچ‌کدام از دقت یا بازخوانی نمی‌تواند داشته باشد. بنابراین این اندازه‌گیری می‌تواند گفت که پیش‌بینی‌های زیادی نزدیک به صحیح هستند و ممکن است برای یک هدف خاص کافی باشد. به عنوان مثال، یک سیستم ممکن است همیشه عناوین مانند "خانم" یا "دکتر" را حذف کند، اما با یک سیستم یا داده‌های واقعی که انتظار دارد عنوان‌ها اضافه شوند، مقایسه گردد. در این صورت، هر نامی به عنوان یک خطا در نظر گرفته می‌شود. به خاطر چنین مسائلی، اهمیت دارد واقعاً به نوع اشتباهات نگاه کرده و تصمیم بگیرید که چقدر مهم هستند با توجه به اهداف و نیازهای خود.

مدل‌های ارزیابی بر اساس تطابق توکن به توکن پیشنهاد شده‌اند. اینگونه مدل‌ها ممکن است امتیاز جزئی را به خاطر تطابق‌های همپوشانی (مانند استفاده از معیار تقاطع بر روی اتحاد) بدهند. آن‌ها امکان ارزیابی و مقایسه دقیقتری از سیستم‌های استخراج را فراهم می‌کنند.