موجودیت نامدار

از ویکی‌پدیا، دانشنامهٔ آزاد

موجودیت نامدار (به انگلیسی: named entity) در استخراج اطلاعات، یک شیء جهان واقعی (مثل یک انسان، محل، سازمان، محصول، و غیره) است که توسط یک اسم خاص می‌توان به آن اشاره کرد. موجودیت نامدار می‌تواند یک هستی انتزاعی یا فیزیکی داشته باشد. مثال موجودیت‌های نامدار شامل باراک اوباما، شهر نیویورک، فولکس‌واگن گلف یا هر چیز دیگری است که توانایی نامدار بودن را دارد. یک موجودیت نامدار را به سادگی می‌توان به صورت یک «نمونه موجودیت» تصور نمود (مثلا شهر نیویورک یک نمونه از یک شهر است).

از دیدگاه تاریخی، اصطلاح «موجودیت نامدار» در پویش ارزیابی MUC-6 اختراع شده‌است،[۱] و شامل ENAMEX (عبارات نام موجودیت مثل انسان، محل، و سازمان) و NUMEX (عبارت عددی) است.

تعریف صوری‌تر را می‌توان از مفهوم نشانگر صلب (که نظریه سول کریپکی است) استخراج کرد. در عبارات «موجودیت نامدار»، واژه «نامدار» می‌خواهد مجموعه ممکن موجودیت‌ها را به فقط آن موجودیت‌هایی محدود کند که یک یا بیشتر نشانگر صلب برای مرجع آن وجود دارد.[۲] یک نشانگر موقعی صلب است که در هر جهان ممکنه به یک چیز مشابه اشاره کند. در مقابل، یک اشاره‌گر شُل ممکن است به چیزهای متفاوتی در جهان‌های ممکن متفاوت اشاره کند.

به عنوان مثال، جمله «بایدن رئیس‌جمهور آمریکا است» را در نظر بگیرید. هم «بایدن» و هم «آمریکا» موجودیت نامدار هستند، زیرا به اشیای خاصی اشاره می‌کنند (جو بایدن و آمریکا). با این حال، «رئیس‌جمهور» یک موجودیت نامدار نیست، زیرا می‌تواند به اشیای متفاوت زیادی در جهان‌های متفاوت ارجاع کند (در بازه‌های ریاست مختلف به افراد مختلف اشاره کند یا در کشورها یا سازمان‌های مختلف به افراد مختلف اشاره کند). نشانگر صلب معمولاً شامل نام‌های خاص است، همچنین ممکن است عبارات طبیعی معینی مثل گونه‌ها و مواد زیستی باشد.

در انجمن تشخیص موجودیت نامدار به یک توافق عمومی رسیده‌اند که «عبارات عددی و زمانی» را نیز موجودیت نامدار در نظر بگیرند، مثل مقدار پول، و واحدهای دیگر، که این موضوع تخلفی از دیدگاه نشانگر صلب است.

به فعالیت تشخیص موجودیت‌های نامدار در متن «تشخیص موجودیت نامدار» گفته می‌شود درحالیکه به فعالیت تعیین هویت موجودیت‌های نامدار ذکر شده در متن «ابهام‌زدایی از موجودیت نامدار» گفته می‌شود. هر دو فعالیت نیاز به منابع و الگوریتم‌های اختصاصی برای تعیین‌شدن دارند.[۳]

پانویس[ویرایش]

  1. Grishman, Ralph; Sundheim, Beth (1996). Design of the MUC-6 evaluation (PDF). TIPSTER '96 Proceedings.
  2. Nadeau, David; Sekine, Satoshi (2007). A survey of named entity recognition and classification (PDF). Lingvisticae Investigationes.
  3. Nouvel, Damien; Ehrmann, Maud; Rosset, Sophie (2015). Wiley (ed.). Named Entities for Computational Linguistics. ISBN 978-1-84821-838-3.

منابع[ویرایش]

مشارکت‌کنندگان ویکی‌پدیا. «Named entity». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۴ ژوئیهٔ ۲۰۲۱.