خلاصه‌سازی خودکار

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

خلاصه‌سازی خودکار

معنی خلاصه‌سازی[ویرایش]

تعاریف فراوانی برای خلاصه سازی وجود دارد ولی آنچه ما به دنبالش هستیم، بدست آوردن مهم ترین اطلاعات یک متن ورودی است، به شکلی که قابل خواندن باشد و بتوان با خواندن آن خلاصه ای از موضوع را درک کرد.

اهمیت خلاصه سازی[ویرایش]

در دنیای امروز، حجم اطلاعات موجود بسیار زیاد است و این امر دسترسی ما به داده ها را پیچیده می کند. بنابراین لازم است روشی پیدا کنیم که دسترسی به اطلاعات مورد نظر را ساده کند. بهترین روش خلاصه کردن و سپس طبقه بندی اطلاعات است.

کاربرد های خلاصه سازی اتوماتیک[ویرایش]

همه ما از خلاصه سازی به صورت های گوناگون استفاده می کنیم.مثلاً به هنگام یاد گیری یک فرمول و یا حفظ یک مطلب همچنین برای نمونه می توان به موارد زیر اشاره کرد:

  1. موتور های جستجو گر وب :موتور های جستجوگر خلاصه ای از تمام صفحات وب رادر اختیار دارند و به هنگام جستجو این عمل را در خلاصه ها انجاممی دهند .
  2. ارسال اخبار به صورت فشرده و کوتاه: سیستم هایی که یک خبررا خلاصه کرده و مهمترین بخشهای آن را در غالب جملات کوتاه پیامک میزنند.
  3. جمع بندی نتایج تحقیق و مقاله

مزایای استفاده از خلاصه سازی اتوماتیک[ویرایش]

پیشرفت اینترنت در سال 1990 و پیشرفت روز افزون پایگاه دادههای الکترونیکی نیاز به توسعه و تکمیل ابزار جستجوی اطلاعات را بیشتر نمود. در انتهای دهه 1990 پروژههای تحقیقاتی روی ایجاد سیستمهای خلاصه سازی اتوماتیک در کشور آمریکا و کشورهای اروپایی تعریف شد. از کابردهای خلاصه سازی می توان به خلاصه سازی اتوماتیک اخبار و ارسال آنها از طریق پست الکترونیکی یا پیامک اشاره نمود. از دیگر کاربردهای آن خلاصه سازی تحقیقاتی، تجاری و خلاصه سازی صفحات وب برای آنکه در صفحه موبایل قابل نمایش باشد، است. در یک سیستم بازیابی اطلاعات، نمایش خلاصه هایی که به صورت اتوماتیک ایجاد شده است مناسب و مفید می باشد، در این صورت کاربر می تواند سریعاً تصمیم بگیرد که چه سندی مطلوب و ارزش بازکردن دارد. گوگل تا حدودی این کار را انجام می دهد و اطلاعات مختصری به همراه نتایج جستجو نشان می دهد. به خاطر علاقه روز افزون دولت، بخش بازرگانی، بخش دانشگاهی به این صنعت، تحقیقات و محصولات خلاصه سازی زیادی در سراسر دنیا موجود میباشد. سیستمهای سنتی بین سالهای 1950 تا 1980 برای جستجوی اطلاعات علمی استفاده می شد. سیستمهای خلاصه ساز امروزی در فیلدهای جدیدی همانند صنعت مخابرات، ویراستارها، سیستمهای فیلترینگ و یادگیری زبان خارجی مورد استفاده قرار می گیرد. کار اصلی سیستم خلاصه ساز کمک به کاربر برای پیدا کردن اطلاعات مورد نیازش است.

سیستم خلاصه سازی چیست؟[ویرایش]

سیستم خلاصه سازی شامل یک کامپیوتر است که متنی را به عنوان ورودی دریافت می کند و خلاصه ی آن را به شکل خروجی و در قالب یک متن خوانا و قابل فهم تحویل می دهد.

انواع خلاصه و خلاصه سازی[ویرایش]

خلاصه ها را می توان از جهات مختلف طبقه بندی کرد:

  1. چگونگی پردازش
  2. مخاطب و متن
  3. اطلاعات ورودی
  4. سبک
  5. نوع کاربر

چگونگی پردازش خلاصه سازی[ویرایش]

Extractive & Abstractive Summarization

  • در روش extractive جملاتی از خود متن انتخاب می شوند و در خلاصه قرار می گیرند.
  • در روش abstractive مفهوم متن ورودی درک می شود و براساس آن خلاصه ارائه می شود.ممکن است جملات و عباراتی از متن در خلاصه قرار گیرند ولی قرار نیست تمام جملات خلاصه عیناً از درون متن انتخاب شده باشند.
  • از آن جایی که رایانه ها قرت فهم زبان انسان را ندارنداساس کار سیستم های خودکار خلاصه سازی، روش extractive است. گرچه پیشرفت های زیادی در زمینه درک متن توسط کامپیوتر حاصل شده، ولی هنوز به جایی نرسیده ایم که یک کامپیوتر بتواند متن را تجزیه و تحلیل کندو در نتیجه بتوان از این قابلیت در امر خلاصه سازی استفاده کرد .

انواع مخاطب و متن[ویرایش]

Query & Generic Summarization

  • یک متن را با در نظر گرفتن فرض های گوناگون می توان به روش های متفاوت خلاصه کرد.
  • خلاصه Generic خلاصه ای است که در آن مخاطب را فردی عادی در نظر می گیریم و موضوع و سبک متن برای ما اهمیت ندارد.
  • خلاصه ی Query خلاصه ای است که که در ابتدا اطلاعاتی از مخاطب و موضوع متن پیدا می کنیم و سپس به خلاصه سازی می پردازیم. به عبارت دیگر در این روش موضوع متن و مخاطب ما خاص می باشد .
  • خلاصه به دست آمده از این دو روش متفاوت خواهند بود.

انواع اطلاعات ورودی[ویرایش]

Single Doc. & Multiple Doc.

چنانچه ورودی سیستم تنها یک متن باشد، به آن Single Document گویند در غیر این صورت به آن Multi Document گفته می شود. در Multi Document متن های ورودی باید با هم اشتراک معنایی داشته باشند.

سبک متن[ویرایش]

هر کدام از سبک های روزنامه ای، علمی و سندی ساختاری متفاوت با دیگری دارند. در نتیجه در پردازش های انجام شده این تفاوت ها می بایست لحاظ شود.

نوع کاربر[ویرایش]

کاربر می تواند انسان یا کامپیوتر باشد. وقتی انسان کاربر سیستم است،مثلاً وقتی که قرار است سیستم یک تحقیق علمی را برای یک دانشجو خلاصه کند متن خلاصه شده باید قابل خواندن باشد. وقتی کامپیوتر کاربر است،مانند مثال موتور های جستجو خوانا بودن مهم نیست چرا که کامپیوتر توانایی فهم زبان انسان و تجزیه و تحلیل آن را ندارد. اما تمامی اطلاعات مهم باید استخراج شوند.

تاریخچه خلاصه سازی خودکار[ویرایش]

اولین فعالیت ها در این زمینه در سال 1950 توسط فردی به نام Luhn شروع شد.اساس کار او، کلمات با بیش ترین تکرار بود. او کلمات پر تکرار را مهم تر از سایر کلمات به حساب می آورد. جملاتی که تعداد بیش تری از این کلمات را داشتند، جملاتی بودند که باید در خلاصه می آمدند. روش وی خطای زیادی دارد و خود او، بعضی از این خطاها را اصلاح کرد. برای مثال برخی افعال و حروف اضافه در تمامی متن ها به دفعات دیده می شوند ولی اطلاعات خاصی را در رابطه با عنوان مقاله در اختیار نمی‌گذارند. گرچه کار وی خطا ی زیادی داشت ، ولی به علت اینکه از پایه گذاران این روش بود، بسیار مورد ستایش قرار گرفت. عده ی زیادی کار او را ادامه دادند و روش های جدیدی ابداع شد که دقت بالاتری دارند.

از جمله افرادی که کار Luhn را ادامه داد، Edmundson بود. او مواردی مانند تعداد دفعات تکرار هر کلمه، تعداد کلماتی از جمله که در عنوان مقاله آمده، محل جمله در مقاله، تعداد کلماتی از جمله که نشان دهنده ی اهمیت هستند(مانند در نتیجه، به طور خلاصه و... ) را مورد توجه قرار داد. وی برای مشخص کردن ارزش هر جمله از ترکیب خطی موارد بالا استفاده کرد.

روش های مبتنی بر گراف[ویرایش]

در این روش متن ورودی به صورت گرافی در می آید. مزیت این روش این است که می توان از کلیه تحلیل هایی که برای گراف ها وجود دارد، استفاده کرد. جملات به صورت رئوس گراف در نظر گرفته می شوند و یال های گراف نمایانگر ارتباط بین جملات اند. می توان به یال های گراف وزن داد. همچنین می توان از روش باینری استفاده کرد. یعنی دو جمله با هم ارتباط دارند یا نه.

چگونگی عملکرد سیستم مبتنی بر گراف[ویرایش]

برای استفاده از این روش، نیازمند مجموعه ی عظیمی از داده های از قبل تعیین شده هستیم. این داده ها شامل کلمات مرتبط به هم هستند مانند کلمات هم معنی و متضاد. این روش مشکلاتی هم دارد. واژه هایی که چند معنی گوناگون دارند مشکل سازند. به همین دلیل واژه هایی که بیش از 5 یا 6 معنی دارند را در نظر نمی‌گیریم. پس از انجام این مراحل و پی بردن به این که کدام کلمات با هم مرتبط اند، می توان دسته بندی بهتری انجام داد.

نمایش گراف[ویرایش]

گرافی که در اینجا با آن سرو کار داریم، یال هایی دارد که ارزش آنها با هم برابر نیست. برای نمایش می توانیم یال ها را با ضخامت متفاوت رسم کنیم، به طوری که ضخامت هر یال متناسب با ارزش آن باشد. می دانیم هر گراف دارای یک ماتریس متناظر است. استفاده از ماتریس، انجام محاسباتی را برایمان ممکن می کند که در دیگر روش ها بسیار دشوار است.

منابع[ویرایش]

[۱][۲][۳][۴]


خطای یادکرد: برچسب <ref> وجود دارد، اما {‌{پانویس}‌} پیدا نشد. لطفاً برای نمایش یادکردها، {‌{پانویس}‌} را در پایان مقاله بیفزایید. راهنمایی بیشتر