استخراج دانش

از ویکی‌پدیا، دانشنامهٔ آزاد

استخراج دانش از منابع ساختار یافته (پایگاه داده های رابطه ای، XML) و بدون ساختار (متن، سند، تصویر) است. دانش حاصل باید به صورت خوانا و قابل تفسیر برای ماشین باشد و باید دانش را به گونه ای نشان داده شود که استنتاج را آسان شود. اگرچه این روش به صورت روشنفکرانه شبیه به استخراج اطلاعات (پردازش زبان طبیعی) و (انبار داده) است، معیار اصلی آن این است که نتیجه استخراج فراتر از ایجاد اطلاعات ساختار یافته یا تبدیل به یک طرح رابطه ای باشد.

برای این منظور، نیاز به بازیافت دانش رسمی موجود (با استفاده از شناسه ها) یا تولید یک طرح بر اساس داده های منبع است.

گروه W3C RDB2RDF  در حال حاضر یک زبان برای استخراج یک چارچوب برای توصیف منابع (RDF) پایگاه داده های رابطه ای استاندارد می سازد. یک مثال دیگر از استخراج دانش، تبدیل ویکی پدیا به داده های ساختار یافته و نیز نقشه برداری آن با دانش موجود است DBpedia و Freebase را ببینید.

پس از استانداردسازی زبان های نمایش دانش مانند RDF و OWL، تحقیقات زیادی در این حوزه انجام شده است، به خصوص در مورد تبدیل پایگاه داده های رابطه ای به RDF، حل مسئله هویت، کشف دانش و یادگیری انطباق. فرآیند عمومی از روش های سنتی استخراج اطلاعات و استخراج، تبدیل و بارگذاری (ETL) استفاده می کند، که داده ها را از منابع به فرمت های ساختاری تبدیل می کند.

استخراج دانش از منابع ساختاری به RDF

نگاشت یک به یک از جداول / نمایش های RDB به موجودیت ها / ویژگی ها / ارزش های RDF


هنگام ساخت نمایش RDB از دامنه مسئله، نقطه شروع معمولاً یک نمودار انتیتی-رابطه (ERD) است. به طور معمول، هر موجودیت به عنوان یک جدول پایگاه داده نمایش داده می شود، هر ویژگی موجودیت به عنوان یک ستون در آن جدول تبدیل می شود و روابط بین موجودیت ها با استفاده از کلیدهای خارجی نشان داده می شود. هر جدول به طور معمول یک کلاس خاص از موجودیت را تعریف می کند، هر ستون یکی از ویژگی های آن است. هر ردیف در جدول یک نمونه از موجودیت را توصیف می کند که با استفاده از یک کلید اصلی شناخته می شود. ردیف های جدول به صورت کلی یک مجموعه موجودیت را توصیف می کنند. در یک نمایش RDF معادل همان مجموعه موجودیت:

  •     هر ستون در جدول یک ویژگی (به عنوان فرض) است
  •     هر مقدار ستون یک مقدار ویژگی (به عنوان شیء) است
  •     هر کلید ردیف یک شناسه موجودیت (به عنوان موضوع) را نشان می دهد
  •     هر ردیف یک نمونه از موجودیت را نشان می دهد

    هر ردیف (نمونه انتیتی) با استفاده از یک مجموعه از تریپل ها با یک موضوع مشترک (شناسه موجودیت) در RDF نشان داده می شود.

بنابراین، برای نمایش معادل بر اساس معناهای RDF، الگوریتم نگاشت پایه به شرح زیر خواهد بود:

  •     برای هر جدول یک کلاس RDFS ایجاد کنید
  •     تمام کلیدهای اصلی و خارجی را به IRI تبدیل کنید
  •     برای هر ستون یک IRI فرضی تعیین کنید
  •     برای هر ردیف که بخشی از یک کلید اصلی یا خارجی نیست، یک تریپل شامل IRI کلید اصلی به عنوان موضوع، IRI ستون به عنوان فرضی و مقدار ستون به عنوان شیء ایجاد کنید.

اشاره اولیه به این نگاشت پایه یا مستقیم می توان در مقایسه مدل ER با مدل RDF توسط تیم برنرز-لی پیدا کرد.