اطلاعات متقابل نقطه ای

در آمار، نظریه احتمالات و نظریه اطلاعات، اطلاعات متقابل نقطه ای(PMI)، معیاری برای همبستگی و وابستگی است. این معیار، احتمال وقوع دو رویداد به‌طور همزمان را با احتمال به وقوع پیوستن آنها به شرط مستقل بودن مقایسه می‌کند.

اطلاعات متقابل نقطه‌ای (به ویژه در نوع اطلاعات متقابل مثبت آن) به عنوان "یکی از مهم‌ترین مفاهیم در پردازش زبان‌های طبیعی " توصیف شده‌است؛ این مفهوم بر اساس گرایشی تأکید می‌کند که بهترین روش برای سنجیدن ارتباط بین دو کلمه این است که مقایسه تعداد وقوع همزمان آن‌ها در یک متن چقدر بیشتر از چیزی است که ما پیش از این انتظار داشتیم به‌طور تصادفی ظاهر شوند.

این مفهوم در سال ۱۹۶۱ توسط رابرت فانو تحت عنوان «اطلاعات متقابل» معرفی شد، اما امروزه این عبارت برای یک معیار وابستگی مرتبط بین متغیرهای تصادفی استفاده می‌شود: اطلاعات متقابل دو متغیر تصادفی گسسته به میانگین اطلاعات متقابل نقطه ای تمام رویدادهای ممکن اشاره دارد.

تعریف[ویرایش]

PMI جفتی از نتایج x و y که به متغیرهای تصادفی گسسته X و Y تعلق دارند، اختلاف بین احتمال همزمانی آنها را با توجه به توزیع مشترک و توزیع‌های فردی آنها کمیت می‌دهد. از نظر ریاضی:

$pmi(x;y)\equiv \ log_{2}{\operatorname {p(x,y)} \over \operatorname {p(x)p(y)} }=log_{2}{\operatorname {p(x|y)} \over \operatorname {p(x)} }=log_{2}{\operatorname {p(y|x)} \over \operatorname {p(y)} }$

(در حالی که دو عبارت اخیر با قضیه بیز برابر با اولی هستند). اطلاعات متقابل (MI) متغیرهای تصادفی X و Y مقدار مورد انتظار PMI (بر روی تمام نتایج ممکن) است.

اندازه‌گیری متقارن است(pmi(x;y) = pmi(y;x)) و می‌تواند مقادیر مثبت یا منفی بگیردو اما اگر x و y مستقل باشند صفر است. توجه داشته باشید که حتی اگر PMI منفی یا مثبت باشد، نتیجه مورد انتظار آن در تمام رویدادهای مشترک (MI) نامنفی است. PMI هنگامی که X و Y کاملاً با هم مرتبط هستند، حداکثر می‌شود (p(x|y) or p(y|x) = ۱) و مرزهای زیر را ایجاد می‌کند:

$-\infty \leqslant pmi(x;y)\leqslant min[-logp(x),-logp(y)].$

در آخر، اگر p(x|y) ثابت باشد، (x;y)pmi افزایش می‌یابد اما p(x) کاهش می‌یابد.

در اینجا یک مثال برای توضیح وجود دارد:

${\begin{array}{|c|c|c|}x&y&p(x,y)\\\hline 0&0&0.1\\0&1&0.7\\1&0&0.15\\1&1&0.05\\\end{array}}$

با استفاده از این جدول می‌توانیم حاشیه‌سازی کنیم تا جدول اضافی زیر را برای توزیع‌های فردی به‌دست آوریم:

${\begin{array}{|c|c|c|}&p(x)&p(y)\\\hline 0&0.8&0.25\\1&0.2&0.75\\\end{array}}$

با این مثال، می‌توانیم چهار مقدار برای pmi(x;y) محاسبه کنیم. با استفاده از الگوریتم بر مبنای دو:

pmi(x=0;y=۰)=−۱

pmi(x=0;y=۱)=۰٫۲۲۲۳۹۲

pmi(x=1;y=۰)=۱٫۵۸۴۹۶۳

pmi(x=1;y=۱)=-۱٫۵۸۴۹۶۳

(برای مرجع، اطلاعات متقابل(X;Y)I در این صورت ۰٫۲۱۴۱۷۰۹ خواهد بود)

شباهت با اطلاعات متقابل[ویرایش]

اطلاعات متقابل نقطه ای روابط مشابه بسیاری با اطلاعات متقابل دارد. به خصوص،

pmi(x;y) = h(x)+h(y)-h(x,y) = h(x)-h(x|y) = h(y)-h(y|x)

انواع اطلاعات متقابل نقطه ای[ویرایش]

چندین گونه از PMI تعریف شده‌است، به ویژه خطاب به آنچه به عنوان «دو محدودیت اصلی» آن توصیف شده‌است.

PMI می‌تواند هم مقادیر مثبت و هم مقادیر منفی داشته باشد و هیچ مرز ثابتی ندارد، که تفسیر آن را سخت‌تر می‌کند.
PMI "تمایل شناخته شده‌ای برای دادن امتیازهای بالاتر به رویدادهای با بسامد پایین" دارد، اما در کاربردهایی مانند اندازه‌گیری شباهت کلمات، ترجیحاً "امتیاز بالاتری برای جفت کلماتی که ارتباط آنها با شواهد بیشتری پشتیبانی می‌شود در نظر گرفته می‌شود.

PMIمثبت[ویرایش]

اطلاعات متقابل نقطه ای مثبت با تنظیم مقادیر منفی PMI بر روی صفر تعریف می‌شود.

$ppmi(x;y)\equiv max{\Biggl (}log_{2}{p(x,y) \over p(x)p(y)},0{\Biggr )}$

این تعریف برگرفته از مشاهده این که "مقادیر PMI منفی (که به این معنی است که هر چیزی کمتر از آنچه که به طور تصادفی انتظار داریم همزمان اتفاق می‌افتند) معمولاً غیرقابل اعتماد هستند، مگر اینکه مجموعه‌های ما عظیم باشند" و همچنین با این نگرانی که "معلوم نیست که آیا می‌توان چنین امتیازهایی از "بی‌ارتباطی" را با قضاوت انسانی ارزیابی کرد یا خیر". همچنین از پرداختن به مقادیر $-\infty$ برای رویدادهایی که هرگز با هم اتفاق نمی‌افتند (pmi(x,y) = ۰) با تنظیم PPMI آنها بر روی ۰ اجتناب می‌کند.

اطلاعات متقابل نقطه ای عادی سازی شده[ویرایش]

اطلاعات متقابل نقطه ای را می‌توان بین [۱+,۱-]عادی سازی کرد که به ۱- (در حد) برای اینکه هرگز با هم اتفاق نیفتند، ۰ برای استقلال، و +۱ برای همزمانی کامل نتیجه می‌دهد.

$npmi(x;y)={\operatorname {pmi(x;y)} \over \operatorname {h(x;y)} }$

خانواده PMI^k[ویرایش]

اندازه‌گیری PMI^k (برای k=۲، ۳ و غیره)، که توسط بئاتریس دیل در حدود سال ۱۹۹۴ معرفی شد و از سال ۲۰۱۱ به عنوان «از جمله پرکاربردترین انواع» توصیف شد، به این صورت تعریف می‌شود

$pmi^{k}(x;y)\equiv log_{2}{p(x,y)^{k} \over p(x)p(y)}=pmi(x;y)-(-(k-1))log_{2}p(x,y))$

به خصوص، pmi¹(x;y) = pmi(x;y). عوامل اضافی p(x,y) در داخل لگاریتم برای تصحیح سوگیری PMI نسبت به رویدادهای فرکانس پایین، با افزایش امتیاز جفت‌های مکرر در نظر گرفته شده‌است. یک مطالعه موردی در سال ۲۰۱۱ موفقیت PMI³ را در تصحیح این سوگیری در مجموعه ای از ویکی‌پدیای انگلیسی نشان داد. با در نظر گرفتن x به عنوان کلمه "فوتبال"، قوی‌ترین کلمات مرتبط با آن y بر اساس معیار PMI است (یعنی آنهایی که pmi(x;y) را حداکثر می‌کنند، دامنه خاص ("هافبک"، "کرنربک"، "دروازه بان") بودند، در حالی که عباراتی که بالاترین رتبه را توسط PMI³ داشتند، بسیار عمومی تر بودند ("لیگ"، "باشگاه ها"، "انگلیس").

قانون زنجیره ای برای pmi[ویرایش]

مانند اطلاعات متقابل، اطلاعات متقابل نقطه ای از قانون زنجیره پیروی می‌کند، یعنی،

pmi(x;yz) = pmi(x;y) + pmi(x;z|y)

این با استفاده از قضیه بیز ثابت می‌شود.

کاربردها[ویرایش]

PMI می‌تواند در رشته‌های مختلفی مورد استفاده قرار گیرد. در نظریه اطلاعات، زبان‌شناسی یا شیمی (در پروفایل و تجزیه و تحلیل ترکیبات شیمیایی). در زبان‌شناسی محاسباتی، PMI برای یافتن هم‌آهنگی‌ها و ارتباط بین کلمات استفاده شده‌است. برای مثال، شمارش رخدادها و هم‌روی‌کردن کلمات در یک پیکره متنی می‌تواند به ترتیب برای تقریب احتمالات p(x) و p(x,y) استفاده شود. جدول زیر تعداد جفت‌هایی از کلمات را نشان می‌دهد که بیشترین و کمترین امتیاز PMI را در ۵۰ میلیون کلمه اول در ویکی‌پدیا دریافت کرده‌اند. فراوانی هر شمارش را می‌توان با تقسیم مقدار آن بر ۵۰٬۰۰۰٬۹۵۲ به‌دست‌آورد. (توجه: لگاریتم طبیعی برای محاسبه مقادیر PMI در این مثال به جای لگاریتم بر مبنای دو استفاده می‌شود).

جفت‌های ترتیب خوب PMI بالایی دارند زیرا احتمال وقوع همزمان فقط کمی کمتر از احتمال وقوع هر کلمه است.

برعکس، یک جفت کلمه که احتمال وقوع آنها به‌طور قابل توجهی بیشتر از احتمال وقوع همزمان آنها است، امتیاز PMI کوچکی دریافت می‌کنند.

منابع[ویرایش]

https://en.wikipedia.org/wiki/Pointwise_mutual_information