ذخیرهسازی و بازیابی اطلاعات
از ویکیپدیا، دانشنامهٔ آزاد
ذخیرهسازی و بازیابی اطلاعات (Information storage and retrieval) به فنآوری و دانش پیچیدهٔ ذخیرهسازی و جستجوی دادهها، فوق دادهها، و اطلاعات در انواع گوناگون منابع اطلاعاتی مثل اسناد، تصاویر، پایگاه دادهها، و وب جهان شمول گفته میشود.
این کلمه در برخی منابع فارسی به اشتباه به جای ذخیره و بازیابی دادهها که به معنای دانش شناخت رسانههای ذخیرهسازی فیزیکی است، به کار رفته است.
فهرست مندرجات |
[ویرایش] مقدمه
با افزایش روز افزون حجم دادهها و اطلاعات ذخیره شده در منابع مختلف قابل دسترس، فرایند بازیابی و استخراج اطلاعات اهمیت ویژه ای یافته است. اطلاعات بازیابی شده ممکن است شامل هر نوع منبعی باشد. مانند متن، تصویر، صوت، ویدئو، و ...
بازیابی اطلاعات در حوزه ی متن مورد توجه بسیاری از محققان است. شاید شما هم با سیستم های بازیابی اطلاعات از اینترنت کار کرده باشید. سیستم های Google ، MSN ، Yahoo سه نمونه از محبوب ترین این سیستم ها هستند.
[ویرایش] مدل کردن کل اطلاعات
اولین گام جهت بازیابی اطلاعات که هر سیستم باید انجام دهد این است که مدلی برای توصیف و تعیین مشابهت های موجود میان اطلاعاتی که در اختیار دارد با نیازهای اطلاعاتی کاربر تعریف کند. سه مدل مهم در حوزه ی بازیابی اطلاعات عبارت است از:
- مدل دودویی (یا دوگانی)
- مدل برداری
- مدل احتمالاتی
در مدل دودویی (یا دوگانی) هر سند (document)، به صورت کیفی پر از کلمات در نظر گرفته میشود (Bag of words). در مدل برداری، هر مستند را به صورت برداری از کلمات در نظر می گیریم و فضایی چند بعدی که ابعاد آنرا کلمات تشکیل میدهند ایجاد می کنیم. سپس هر سند در این فضا به صورت یک بردار نمایش داده میشود. مولفههای این بردار سند، در واقع وزن هایی هستند که نشان میدهند هر یک از کلمات چقدر در متمایز کردن آن سند دخیل هستند. در مدل احتمالاتی ، به هر سند احتمالی اختصاص داده میشود که مربوط بودن آن مستند را به نیاز کاربر به صورت احتمال بین صفر و یک بیان میکند.
[ویرایش] تعیین میزان ربط هر سند به نیاز اطلاعاتی کاربر
بعد از تعریف این مدل، سیستم اکنون آماده است که نیاز اطلاعاتی کاربر را دریافت کند. معمولاً کاربران نیاز اطلاعاتی خود را در قالب چندین کلمه یا عبارات معمولی به سیستم بیان میکنند. سیستم سپس بر اساس مدلی که اطلاعات را در آن مدل کرده است، میزان ربط هر سند را با نیاز اطلاعاتی کاربر محاسبه میکند و آن سندهایی را که از همه باربط تر تشخیص داده شده اند به عنوان خروجی باز می گرداند.
در مدل دودویی، نیاز اطلاعاتی کاربر به صورت عبارتی منطقی با عملگر های AND , OR, NOT بیان میشود و هر سندی که این عبارت در مورد آن صحیح باشد بازیابی میشود. مثلاً اگر نیاز اطلاعاتی به صورت Iran AND Oil بیان شود، تمامی اسنادی که کلمه ی Iran و Oil را با هم دارند به کاربر نمایش داده میشوند. متاسفانه در مدل دودویی سند یا باربط است یا نیست, و هیچ معیاری برای سنجش میزان ربط وجود ندارد. مثلاً دو سندی که یکی تماما در باره ایران و نفت بحث میکند, و دیگری در مورد اقتصاد جهانی صحبت میکند و فقط از نام ایران و نفت به عنوان مثالی در یک جمله استفاده کرده است، از نظر سیستم تفاوتی نیست. در صورتیکه در واقع سند اول بیشتر به نیاز کاربر مربوط است.
در مدل برداری، برای سنجش میزان ربط اسناد و نیاز اطلاعاتی کاربر، سیستم دقیقا به مانند قبل نیاز اطلاعاتی کاربر را هم به فضای چند بعدی از کلمات میبرد و در نتیجه برای سنجش میزان شباهت میان این دو بردار میتوان از زاویه ای که این دو بردار با هم می سازند استفاده کرد. اسنادی که با نیاز اطلاعاتی کاربر دقیقا هم جهت هستند مسلما نسبت کلماتشان به همان نسبت کلمات نیاز اطلاعاتی است و در نتیجه مرتبط تر خواهند بود. برتری این مدل این است که به ما درجه ای از ربط را میدهد.
در مدل احتمالاتی هم به ازای هر نیاز اطلاعاتی، تمامی اسناد بر اساس احتمال این که این سند با نیاز اطلاعاتی مرتبط باشد مرتب میشوند و لیست اسناد در نهایت به صورت درجه بندی شده (مانند مدل برداری) به کاربر نمایش داده میشود به نحوی که اولین سندی که کاربر می بیند از همه بیشتر احتمال دارد که به نیاز او ربط داشته باشد.
[ویرایش] تفاوت بازیابی داده و بازیابی اطلاعات
بین بازیابی اطلاعات و بازیابی داده تفاوت های زیادی وجود دارد. دادهها ابهام ندارند. اما اطلاعات نیاز به تفسیر دارد و در نتیجه مبهم میشوند. سیستم بازیابی داده نیاز به رفع این ابهام ها را ندارد اما در سیستم بازیابی اطلاعات باید هر چه بهتر اطلاعات را مدل کنیم تا ابهام ها در درک اطلاعات توسط سیستم کمتر شوند. برای همین است که بر خلاف سیستم های بازیابی داده که کارایی سیستم از نظر سرعت و فضا به عنوان معیار ارزیابی در نظر گرفته میشود، در سیستم های بازیابی اطلاعات، معیار دقت (precision) و بازخوانی (recall) و معیارهایی شبیه به آنها بیشتر به عنوان معیار ارزیابی سیستم به کار میروند.
[ویرایش] معیارهای ارزیابی
معیار دقت به حاصل تقسیم تعداد مستندات بازیابی شده ی واقعا باربط ، بر تعداد کل مستندات بازیابی شده گفته میشود. و معیار بازخوانی هم به حاصل تقسیم تعداد مستندات بازیابی شدهٔ باربط، بر تعداد کل مستندات باربطی که در مجموعهٔ اطلاعاتی موجود بوده است.
[ویرایش] پیوندهای بیرونی
- چالشها و تنگناهای مدیریت و بازیابی اطلاعات، امین یوسفی
- بررسی مؤلفههای مؤثر بر ميزان بازيابی اطلاعات (جامعیت) و دقت بازيابی اطلاعات (مانعیت) در نظام های بازيابی اطلاعات وب مدار، محسن شمس اژه ای - سيروس اميدی فر
[ویرایش] منابع
- ذخیرهسازی و بازیابی اطلاعات (انگلیسی)
- مربوط به سامانههای مدیریت پایگاه دادهها (انگلیسی)

