واگرایی کولبک-لیبلر

در آمار ریاضی از واگرایی کولبک-لیبلر یا انتروپی نسبی به عنوان معیاری برای اندازه‌گیری واگرایی یک توزیع احتمال از یک توزیع احتمال ثانویه، یاد می‌شود.^[۱]^[۲] از جمله کاربردهای این مفهوم شامل توصیف انتروپی نسبی (shannon) در سیستم‌های اطلاعاتی، میزان تصادفی‌بودن در سری‌های زمانی پیوسته و بهره اطلاعاتی در زمانی که به مقایسه با مدلهای آماری استنباطی می‌پردازیم، می‌باشد. برخلاف تنوع اطلاعات، این معیار، یک معیار نامتقارن می‌باشد و در نتیجه نمی‌توان آن را به عنوان یک معیار پراکندگی معرفی کرد. به عبارت دیگر، مقدار $0$ برای واگرایی کولبک-لیبلر نشان می‌دهد که ما می‌توانیم انتظار رفتار مشابهی (نه دقیقاً یکسان) از دو توزیع داشته باشیم در حالی که مقدار $1$ برای این معیار نشان می‌دهد که دو توزیع رفتارهای متضادی دارند.

ریشه‌شناسی[ویرایش]

عبارت واگرایی کولبک-لیبلر در اصل توسط Solomon Kullback و Richard Leibler در سال ۱۹۵۱ به عنوان واگرایی جهت‌دار بین دو توزیع معرفی گردید؛ هرچند که Kullback خودش نام تمییز اطلاعات را بیشتر ترجیح می‌داد.^[۳] در Kullback's historic text, Information Theory and Statistics، این معیار مورد بحث قرار گرفته است.

تفسیر[ویرایش]

واگرایی کولبک-لیبلر توزیع $Q$ نسبت به $P$ اغلب به صورت $D_{KL}(P||Q)$ نوشته می‌شود.

یادگیری ماشین[ویرایش]

در حوزه یادگیری ماشین از $D_{KL}(P||Q)$ عموماً به نام بهره اطلاعاتی حاصل به شرطی که به جای توزیع $P$ از توزیع $Q$ استفاده شود، یاد می‌شود. از منظر تئوری اطلاعات، این مسئله انتروپی نسبی از توزیع $P$ با توجه به توزیع $Q$ نامیده می‌شود.

کدگذاری[ویرایش]

در حوزه نظریه کدگذاری، $D_{KL}(P||Q)$ می‌تواند به عنوان معیاری برای اندازه‌گیری متوسط تعداد بیت‌های اضافی مورد نیاز به منظور کد کردن نمونه‌ای از توزیع $P$ با استفاده از یک کد بهینه‌سازی شده برای توزیع $Q$ ، به جای استفاده از کد بهینه‌سازی شده برای $P$ می‌باشد.

استنتاج بیزی[ویرایش]

از منظر استنتاج بیزی $D_{KL}(P||Q)$ ، یک معیار اندازه‌گیری اطلاعات کسب شده هنگامی که یک اصلاح باورهای از توزیع پیشین احتمال $Q$ به توزیع پسین احتمال $P$ رخ دهد. به عبارت دیگر، مقداری از اطلاع است که به واسطه تقریب زدن $P$ در هنگامی که از $Q$ برای آن استفاده می‌شود، می‌باشد.^[۴] در عمل، $P$ به طور معمول نشان دهنده توزیع «صحیح» داده‌ها، مشاهدات یا یک توزیع تئوری است که دقیق محاسبه شده است؛ در حالی که $Q$ به طور معمول نشان دهنده یک نظریه، مدل، توصیف یا تقریبی از $P$ می‌باشد. به منظور پیدا کردن یک توزیع $Q$ که نزدیکترین توزیع به $P$ باشد، می‌توان به دنبال محاسبه توزیعی گشت که معیار واگرایی $KL$ را کمینه می‌کند.

هندسه اطلاعات[ویرایش]

در کاربردها، $P$ معمولا توزیع صحیح داده‌ها را نشان می‌دهد و $Q$ یک فرضیه،‌ مدل یا تخمینی از $P$ را نشان می‌دهد. برای اینکه بهترین تخمین توزیع $Q$ از توزیع $P$ را بدست بیاوریم می‌توانیم واگرایی کولبک-لیبلر این دو توزیع را کمینه کنیم و سپس پرجکشن اطلاعات را بدست بیاوریم.

با اینکه انتروپی نسبی یک فاصله آماری به شمار می‌رود اما یک متریک نیست. بلکه یک معیار واگرایی است. چرا که این معیار متقارن نیست، یعنی $D_{\mathrm {KL} }(P\|Q)\neq D_{\mathrm {KL} }(Q\|P)$ و همچنین نامساوی مثلث در مورد آن صادق نیست. واگرایی برخلاف متریک که فاصله خطی را تعمیم می‌دهد،‌ تعمیمی از مربع فاصله است. فرم بی‌نهایت‌کوچک انتروپی نسبی و به طور خاص هسین آن، یک تنسور متریک می‌هد.

انتروپی نسبی یک حالت خاص از یک کلاس گسترده‌تر از واگرایی‌های آماری به نام واگرایی f و همچنین کلاس واگرایی‌های برگمن است، و این تنها واگرایی روی توزیع‌های احتمالاتی است که در هر دو کلاس قرار می‌گیرد.

اقتصاد[ویرایش]

یک بازیکن را در یک بازی عادلانه با نتیجه متقابلا مجزا در نظر بگیرید. برای مثال یک شخص که در مسابقه اسب‌سواری که جمع شانس‌های رسمی برد یک است سرمایه‌گذاری می‌کند. نرخ سود مورد انتظار این سرمایه‌گذار برابر است با انتروپی نسبی احتمالاتی که وی براساس آنها سرمایه‌گذاری می‌کند و مقادیر رسمی شانس برد.^[۵]

تعریف[ویرایش]

برای توزیعهای احتمالاتی گسسته $P$ و $Q$ معیار واگرایی کولبک-لیبلر واگرایی از $Q$ به $P$ ، به صورت زیر تعریف می‌شود^[۶]

D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\,\log {\frac {P(i)}{Q(i)}}.

به عبارت دیگر، امید تفاوت لگاریتمی بین احتمالات $P$ و $Q$ در جایی که امید با استفاده از توزیع $P$ به دست آمده باشد، می‌باشد. معیار واگرایی کولبک-لیبلر تنها در صورتی که $Q(i)=0$ نتیجه دهد $P(i)=0$ تعریف شده است. هر زمان که $P(i)$ برابر صفر گردد سهم $i$ مین جمله صفر تفسیر می‌شود و این بخاطر $\lim _{x\to 0}x\log(x)=0$ می‌باشد. برای توزیعهای $P$ و $Q$ از یک متغیر تصادفی پیوسته، معیار واگرایی کولبک-لیبلر به صورت انتگرال زیر تعریف می‌شود:^[۷]

D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\,\log {\frac {p(x)}{q(x)}}\,{\rm {d}}x,\!

به طوریکه در آن $p$ و $q$ به معنی چگالی احتمال $P$ و $Q$ می‌باشد. به طور کلی، اگر $P$ و $Q$ احتمال‌هایی تعریف شده بر روی یک مجموعه X باشند و $P$ اکیداً پیوسته نسبت به $Q$ باشد، آنگاه معیار واگرایی کولبک-لیبلر از $Q$ به $P$ به صورت زیر تعریف می‌گردد:

D_{\mathrm {KL} }(P\|Q)=\int _{X}\log {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P,\!

در این تعریف، ${\frac {{\rm {d}}P}{{\rm {d}}Q}}$ مشتق Radon–Nikodym از $P$ نسبت به $Q$ می‌باشد و می‌تواند به صورت زیر بازنویسی شود:

D_{\mathrm {KL} }(P\|Q)=\int _{X}\log \!\left({\frac {{\rm {d}}P}{{\rm {d}}Q}}\right){\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q,

که ما آن را به عنوان آنتروپی نسبی $P$ نسبت به $Q$ می‌شناسیم. در ادامه در این مورد، اگر $\mu$ هر اندازه‌گیری بر روی $X$ باشد که در آن $p={\frac {{\rm {d}}P}{{\rm {d}}\mu }}$ و $q={\frac {{\rm {d}}Q}{{\rm {d}}\mu }}$ برقرار باشد (به این معنی که $p$ و $q$ اکیداً نسبت به $\mu$ ) آنگاه معیار واگرایی کولبک-لیبلر از $Q$ به $P$ ، به صورت زیر می‌باشد

D_{\mathrm {KL} }(P\|Q)=\int _{X}p\,\log {\frac {p}{q}}\,{\rm {d}}\mu .\!

در صورتی که اطلاعات با واحد بیت اندازه‌گیری شده باشد لگاریتمها در مبنای $2$ می‌باشند و در صورتی که از واحد nats برای سنجش اطلاعات استفاده شده باشد، پایه لگاریتم‌ها $e$ خواهد بود.

قراردادهای مختلفی برای اشاره به $D_{KL}(P||Q)$ به صورت لفظی وجود دارد. اغلب از آن به عنوان اختلاف بین توزیع‌های $P$ و $Q$ یاد می‌شود;در حالی که این توصیف با خاصیت نامتقارن بودن فرمول (یعنی واگرایی توزیع $P$ از $Q$ با میزان واگرایی توزیع $Q$ از $P$ لزوماً برابر نیست) در تعارض است. از این رو برخی مواقع، همان‌طور که در این مقاله هم از آن یاد شد، از آن به عنوان واگرایی توزیع $P$ از یا نسبت به توزیع $Q$ یاد می‌کنند.

خصوصیات[ویرایش]

Arthur Hobson ثابت کرد که معیار واگرایی کولبک-لیبلر تنها معیار تفاوت بین توزیعهای احتمالی است که برخی از خواص مورد نظر را در خود دارد.^[۸] و نتیجتاً، اطلاعات متقابل نیز تنها معیار وابستگی متقابل میان متغیرهای تصادفی است که یکسری شرایط خاص را دارا می‌باشد، چرا که آن می‌تواند از منظر معیار واگرایی مورد نظر نیز تعریف گردد.

در این‌جا به برخی از خصوصیات معیار واگرایی کولبک-لیبلر اشاره می‌کنیم:

انتروپی نسبی همیشه نامنفی است،‌ در نتیجه

D_{\text{KL}}(P\parallel Q)\geq 0

که به عنوان نامساوی گیبز شناخته می‌شود. همچنین داریم

D_{\text{KL}}(P\parallel Q)=0

اگر و تنها اگر

P=Q

.

اثبات: حالت گسسته را درنظر بگیرید. حکم بالا را می‌توان با استفاده از نامساوی ینسن و نامساوی جمع لگاریتم اثبات کرد. از آنجایی که لوگاریتم یک تابع محدب است داریم:

\sum _{i}P(i)\log {\frac {Q(i)}{P(i)}}\leq \log \sum _{i}P(i){\frac {Q(i)}{P(i)}}=\log \sum _{i}Q(i)\leq 0

نامساوی اول از ینسن نتیجه می‌شود و نامساوی دوم از تابع احتمالاتی بودن

Q

. همچنین از آنجایی که لوگاریتم اکیدا محدب است،‌ بنابر نابرابری ینسن تساوی زمانی رخ می‌دهد که

{\frac {Q(1)}{P(1)}}={\frac {Q(2)}{P(2)}}=\cdots ={\frac {Q(n)}{P(n)}}

و

\sum _{i}Q(i)=1

. فرض کنید این نسبت برابر با

r

باشد. در این صورت:

1=\sum _{i}Q(i)=\sum _{i}rP(i)=r

پس تساوی زمانی رخ می‌دهد که

P=Q

.

به طور کلی برای واگرایی کولبک-لیبلر کران بالایی وجود ندارد. با این حال، نشان داده شده است که اگر $P$ و $Q$ دو توزیع احتمال گسسته باشند که با توزیع یک مقدار گسسته ساخته شده‌اند، آن‌گاه حداکثر مقدار $D_{\text{KL}}(P\parallel Q)$ به‌دست می‌آید.^[۹]
انتروپی نسبی تقریباً مانند انتروپی شانون برای توزیع‌های مستقل جمعی است. اگر $P_{1},P_{2}$ توزیع‌های مستقلی باشند و $P(dx,dy)=P_{1}(dx)P_{2}(dy)$ و به طور مشابه $Q(dx,dy)=Q_{1}(dx)Q_{2}(dy)$ برای توزیع‌های مستقل $Q_{1},Q_{2}$ آنگاه $D_{\text{KL}}(P\parallel Q)=D_{\text{KL}}(P_{1}\parallel Q_{1})+D_{\text{KL}}(P_{2}\parallel Q_{2}).$
انتروپی نسبی $D_{\text{KL}}(P\parallel Q)$ برای جفت توزیع‌های احتمالی $(P,Q)$ محدب است. یعنی اگر $(P_{1},Q_{1})$ و $(P_{2},Q_{2})$ دو جفت تابع احتمال باشند آنگاه $D_{\text{KL}}(\lambda P_{1}+(1-\lambda )P_{2}\parallel \lambda Q_{1}+(1-\lambda )Q_{2})\leq \lambda D_{\text{KL}}(P_{1}\parallel Q_{1})+(1-\lambda )D_{\text{KL}}(P_{2}\parallel Q_{2}){\text{ for }}0\leq \lambda \leq 1.$

انگیزه[ویرایش]

در تئوری اطلاعات، قضیه Kraft–McMillan بیان می‌کند که هر شمای کدگذاری قابل دیکد کردنی برای کد کردن یک پیام به طوریکه بتوان مقدار x_i را از مجموعه تمامی مقادیر ممکن $X$ به صورت مستقیم کدگشایی کند نیاز تا احتمال نمایش هر مقدار را به صورت توزیع احتمال $q(x_{i})=2^{-l_{i}}$ در نظر گرفته شود که در آن l_i، طول کد برای x_i در واحد بیت می‌باشد. بنابراین، معیار واگرایی کولبک لیبلر را می‌توان به عنوان امید مقدار طول پیام اضافی به ازای هر داده دانست که در صورتی که اگر از یک کد که برای توزیع $Q$ بهینه است (توزیع ناصحیح) برای انتقال آن استفاده گردد، باید به صورت اضافی (نسبت به حالتی که از یک کد بهینه برای توزیع صحیح استفاده شود) مخابره گردد.