فراوانی وزنی تی‌اف-آی‌دی‌اف

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به ناوبری پرش به جستجو

فراوانی وزنی تی‌اف-آی‌دی‌اف (به انگلیسی: tf–idf weight) مخّففِ term frequency - inverse document frequency یا فراوانی کلمه - معکوس فراوانی متن است.[۱] در این شیوه به هر کلمه‌ای در هر متن یک‌وزن بر اساس فراوانی آن در متن و فراوانی کلمه در سایر متونِ پیکره متنی داده می‌شود.[۲] در واقع هدف این سیستمِ وزن‌دهی، نشان‌دادن اهمیت کلمه در متن است. این مسئله کاربردهای بسیاری در بازیابی اطلاعات و متن کاوی دارد. وزن کلمه با افزایش تعداد تکرار آن در متن افزایش می‌یابد، اما توسط تعداد متونی که کلمه در آن ظاهر می‌شود کنترل می‌شود. به این معنی که اگر کلمه‌ای در بسیاری از متون ظاهر شود احتمالا کلمه‌ای متداول است و ارزش چندانی در ارزیابی متن ندارد.[۲] امروزه بیش از ۸۳ درصد از سامانه‌های توصیه‌گر در کتابخانه‌های دیجیتال از این روش وزن‌دهی کلمات استفاده می‌کنند.[۱]

تعریف ریاضی[ویرایش]

وزن کلمه در متن برابر است با حاصلضرب تابع فراوانی کلمه یعنی و تابع معکوس فراوانی یعنی که در پایین تعریف شده‌اند.[۳]

تابع فراوانی کلمه (tf یا Term Frequency)[ویرایش]

اگر فرض کنیم تکرار تعداد دفعاتی باشد که کلمه در متن اتفاق افتاده است، تابع فراوانی کلمه یا به چند طریق می‌تواند تعریف شود[۳]:

  • فراوانی خام:
  • فراوانی خامِ نرمال‌سازی شده:‌
  • فراوانی بولی:
    • اگر کلمه برزگتر از صفر باشد یک است و در غیر این صورت صفر.
  • فراوانی لگاریتمی:
  • فراوانی تکمیل شده:
    • این تابع برای برای جلوگیری از تمایل به سمت متون بزرگتر مورد استفاده قرار می‌گیرید، یعنی به دلیل حجم بالاتر متن نسبت به سایر متون ممکن است کلمه مورد نظر بیشتر تکرار شده باشد ولی این به دلیل فراوانی بیشتر کلمه در متن بزرگتر نیست. این مورد بیشتر در موتور جستجو برای بازیابی مستندات با کلمات مورد جستجو کاربرد دارد.

این موارد را می‌توان در جدول پایین به صورت خلاصه نمایش داد:


Variants of term frequency (tf) weight
weighting scheme tf weight
binary
raw count
term frequency
log normalization
double normalization 0.5
double normalization K













تابع معکوس فراوانی متن (idf یا Inverse document frequency)[ویرایش]

idf: معیاری است برای میزان کلماتی که در پیکره متنی متداول هستند و معمولاً تکرار می‌شوند.[۴] طریقه بدست آوردن این معیار بدین صورت است که از لگاریتمِ تقسیم تعداد کل متون در پیکره متنی بر تعداد متونی که شامل کلمه متداول استفاده می‌کنیم. به زبان ریاضی این تابع را با نشان می‌دهیم. در اینجا یعنی تعداد کل متنها در پیکره متنی و تعداد متن‌هایی را نمایش می‌دهد که کلمه در آن ظاهر شده است. برای مثال: فرض کنیم در پیکره متنی ما هزار متن وجود داشته باشد. اگر در تمام این هزار متن یک کلمه خاص (مثلاً کلمه «است») وجود داشته باشد حاصل لگاریتم هزار تقسیم بر هزار می‌شود صفر. یعنی حتماً این کلمه جزوِ کلمات متداول بوده و باید ضریب صفر بگیرد ولی اگر تکرار در صد متن اتفاق افتاده باشد جواب می‌شود لگاریتم ده که حاصل آن یک است، پس ضریب یک می‌گیرد.[۵] هر چقدر متونی که کلمه در آن تکرار شده باشد بیشتر باشد وزن کوچکتر می‌شود؛ البته چون ممکن است کلمه‌ای اصلاً در هیچ متنی تکرار نشده باشد و مخرج صفر شود مخرج را معمولاً با یک جمع می‌کنیم. البته تابع معکوس فراوانی می‌تواند فرم‌های متفاوتی بگیرد که چند نمونه از آن در جدول پایین نمایش داده شده است.[۴]


Variants of inverse document frequency (idf) weight
weighting scheme idf weight ()
unary 1
inverse document frequency
inverse document frequency smooth
inverse document frequency max
probabilistic inverse document frequency











فراوانی وزنی نهائی (tf-idf)[ویرایش]

فراوانی وزنی تی‌اف-آی‌دی‌اف که وزن نهایی کلمات در متون است از ضرب تابع فراوانی کلمه یعنی و تابع معکوس فراوانی یعنی بدست می‌آید.[۳] چند نمونه از این توابع در جدول پائین لیست شده‌است.

Recommended tf–idf weighting schemes
weighting scheme document term weight query term weight
1
2
3


مثال[ویرایش]

فرض کنیم پیکره متنی ما باشد و فقط دو متن داشته باشد به این شکل:

ابتدا تابع فراوانی کلمه را در هر دو متن حساب میکنیم:‌

سپس تابع معکوس فراوانی این کلمه را برای پیکره متنی محاسبه می‌کنیم، جواب صفر میشود:

فراوانی نهایی که حاصلضرب دو تابع اخیر است، برای هر دو متن صفر می‌شود:

کلمه را هم به همان شکل حساب میکنیم:

جواب نهائی برای کلمه در دو متن برابر خواهد بود با:‌

در متن اول که کلمه وجود ندارد جواب صفر است ولی در متن دوم جواب صفر نیست که نشان می‌دهد کلمه در متن دوم کلمه‌ای پر اهمیت است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ Breitinger, Corinna; Gipp, Bela; Langer, Stefan (2015-07-26). "Research-paper recommender systems: a literature survey" (Submitted manuscript). International Journal on Digital Libraries (in انگلیسی). 17 (4): 305–338. doi:10.1007/s00799-015-0156-0. ISSN 1432-5012.
  2. ۲٫۰ ۲٫۱ Rajaraman, A.; Ullman, J.D. (2011). "Data Mining". Mining of Massive Datasets (PDF). pp. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.
  3. ۳٫۰ ۳٫۱ ۳٫۲ Luhn, Hans Peter (1957). "A Statistical Approach to Mechanized Encoding and Searching of Literary Information" (PDF). IBM Journal of Research and Development. 1 (4): 309–317. doi:10.1147/rd.14.0309. Retrieved 2 March 2015. There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea.
  4. ۴٫۰ ۴٫۱ Spärck Jones, K. (1972). "A Statistical Interpretation of Term Specificity and Its Application in Retrieval". Journal of Documentation. 28: 11–21. CiteSeerX 10.1.1.115.8343. doi:10.1108/eb026526.
  5. Robertson, S. (2004). "Understanding inverse document frequency: On theoretical arguments for IDF". Journal of Documentation. 60 (5): 503–520. doi:10.1108/00220410410560582.