اندیس جاکارد

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

اندیس جاکارد (به انگلیسی: Jaccard index) یا ضریب شباهت جاکارد (به فرانسوی: coefficient de communauté) معیاری برای مقایسه شباهت یا تفاوت مجموعه نمونه های آماری است.

میزان شباهت دو مجموعه نمونه با توجه به اندیس جاکارد J(A,B)، از تقسیم تعداد اشتراک دو مجموعه بر تعداد اجتماع دو مجموعه به دست می آید.

 J(A,B) = {{|A \cap B|}\over{|A \cup B|}}.

همچنین، فاصله جاکارد J_{\delta}(A,B) که میزان تفاوت دو مجموعه نمونه را می سنجند، با کم کردن میزان شباهت جاکارد از یک بدست می آید. همینطور با کسر تعداد اشتراک از تعداد اجتماع دو مجموعه و تقسیم آن به تعداد اجتماع دو مجموعه می توان فاصله جاکارد بین آن دو مجموعه را محاسبه کرد.

 J_{\delta}(A,B) = 1 - J(A,B) = { { |A \cup B| - |A \cap B| } \over |A \cup B| }.

اندیس جاکارد یک تابع استاندارد فاصله (متریک) است. [۱][۲]

شباهت صفت های دودویی نامتقارن[ویرایش]

دو شیء A و B را در نظر می گیریم که هر کدام شامل n صفت دودویی هستند. با استفاده از ضریب جاکارد می توان میزان صفت های مشترک بین A و B را محاسبه کرد. هر صفتی از A و B می تواند دارای مقدار 0 یا 1 باشد. تعداد کل شیوه های مختلف ترکیب صفات در A و B به شکل زیر مشخص می شود:

M_{11} نشان دهنده تعداد کل صفاتی است که در آن A و B هر دو مقدار 1 دارند.
M_{01} نشان دهنده تعداد کل صفاتی است که صفت A برابر 0 و صفت B برابر 1 است.
M_{10} نشان دهنده تعداد کل صفاتی است که صفت A برابر 1 و صفت B برابر 0 است.
M_{00} نشان دهنده تعداد کل صفاتی است که در آن A و B هر دو مقدار 0 دارند.

هر صفت می بایست در یکی از چهار گروه فوق قرار بگیرد. بنابراین:

M_{11} + M_{01} + M_{10} + M_{00} = n.

ضریب شباهت جاکارد به این طریق بدست می آید:

J = {M_{11} \over M_{01} + M_{10} + M_{11}}.

همچنین فاصله جاکارد به شکل زیر محاسبه می شود:

J' = {M_{01} + M_{10} \over M_{01} + M_{10} + M_{11}}.

جستارهای وابسته[ویرایش]

پانویس[ویرایش]

  1. Lipkus, Alan H (1999), A proof of the triangle inequality for the Tanimoto distance, J Math Chem 26 (1-3): 263–265 
  2. Levandowsky, Michael; Winter, David (1971), Distance between sets, Nature 234 (5): 34–35 

منابع[ویرایش]

  • Tan, Pang-Ning; Steinbach, Michael; Kumar, Vipin (2005), Introduction to Data Mining, ISBN 0-321-32136-7 .
  • Jaccard, Paul (1901), Étude comparative de la distribution florale dans une portion des Alpes et des Jura, Bulletin de la Société Vaudoise des Sciences Naturelles 37: 547–579 .
  • Tanimoto, Taffee T. (November 17, 1957), IBM Internal Report  Missing or empty |title= (help).