اطلاعات متقابل تنظیم شده

از ویکی‌پدیا، دانشنامهٔ آزاد

در نظریه احتمالات و نظریه اطلاعات، اطلاعات متقابل تنظیم شده، ممکن است تغییر نسخه ای از اطلاعات متقابل برای مقایسه خوشه‌بندی‌ها استفاده شود.[۱] اثر توافق را صرفاً به دلیل شانس بین خوشه‌بندی‌ها تصحیح می‌کند، مشابه روشی که شاخص رند تنظیم‌شده، شاخص رند را تصحیح می‌کند. ارتباط نزدیکی با تنوع اطلاعات دارد:[۲] هنگامی که تنظیم مشابهی برای شاخص VI انجام می‌شود، معادل AMI می‌شود.[۱] با این حال، اندازه‌گیری تنظیم شده دیگر متریک نیست.[۳]

اطلاعات متقابل دو بخش[ویرایش]

با توجه به مجموعه S از N عنصر S = {s1,s2... ,sN}، دو بخش از S را در نظر بگیرید، برای مثال U = {u1,u2... ,uR} با R خوشه،

و V = {v1,v2... ,vC} با C خوشه. در اینجا فرض می‌شود که بخش‌ها به اصطلاح خوشه‌های سخت هستند. بخش‌ها به صورت جفتی جدا هستند:

به ازای همه  :

اطلاعات متقابل همپوشانی خوشه بین U و V را می‌توان در قالب یک جدول احتمالی RxC خلاصه کرد. که در آن تعداد اشیاء مشترک در خوشه‌های Ui و Vj را نشان می‌دهد. به این معنا که،

فرض کنید یک شی به‌طور تصادفی از S انتخاب شده‌است. احتمال اینکه جسم به خوشه Ui بیفتد این است:

آنتروپی مرتبط با بخش‌بندی U عبارت است از:

که در آن PV(j) = |Vj|/N. اطلاعات متقابل بین دو بخش:

که در آن PUV(i,j) نشان دهنده این احتمال است که یک نقطه به خوشه Ui در U و خوشه Vj در V تعلق دارد:

MI یک کمیت غیر منفی است که با آنتروپی‌های H(U) و H(V) محدود شده‌است، اطلاعات به اشتراک گذاشته شده توسط دو خوشه بندی را کمی می‌کند و بنابراین می‌تواند به عنوان معیار تشابه خوشه بندی استفاده شود.

تعدیل برای شانس[ویرایش]

مانند شاخص رند، مقدار پایه اطلاعات متقابل بین دو خوشه‌بندی تصادفی مقدار ثابتی به خود نمی‌گیرد و زمانی که دو پارتیشن تعداد خوشه‌های بیشتری داشته باشند (با تعداد ثابتی از عناصر مجموعه N) تمایل به بزرگ‌تر شدن دارد. با اتخاذ یک مدل فوق هندسی تصادفی، می‌توان نشان داد که اطلاعات متقابل مورد انتظار بین دو خوشه تصادفی عبارتند از:

هنگامی که دو پارتیشن یکسان هستند، AMI مقدار ۱ و زمانی که MI بین دو پارتیشن برابر با مقدار مورد انتظار بنابر شانس باشد، ۰ می‌گیرد.

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ Vinh, N. X.; Epps, J.; Bailey, J. (2009). "Information theoretic measures for clusterings comparison". Proceedings of the 26th Annual International Conference on Machine Learning - ICML '09. p. 1. doi:10.1145/1553374.1553511. ISBN 978-1-60558-516-1.
  2. Meila, M. (2007). "Comparing clusterings—an information based distance". Journal of Multivariate Analysis. 98 (5): 873–895. doi:10.1016/j.jmva.2006.11.013.
  3. Vinh, Nguyen Xuan; Epps, Julien; Bailey, James (2010), "Information Theoretic Measures for Clusterings Comparison: Variants, Properties, Normalization and Correction for Chance" (PDF), The Journal of Machine Learning Research, 11 (oct): 2837–54