آنتروپی اطلاعات

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو
آنتروپی نتیجه‌ی انداختن دو سکه‌ی سالم برابر با 2 بیت است. هر کدام از چهار حالت ممکن 0.25 احتمال دارد. اطلاعات حاصل از هر مشاهده برابر با و میانگین اطلاعات حالت‌های ممکن برابر با 2 بیت است.

آنتروپی در نظریه اطلاعات معیاری عددی از میزان اطلاعات یا میزان تصادفی بودن یک متغیر تصادفی است. به بیان دقیق‌تر آنتروپی یک متغیر تصادفی، امیدریاضی میزان اطلاعات حاصل از مشاهده‌ی آن است. همچنین آنتروپی یک منبع اطلاعات، حد پایین امید بهترین نرخ فشرده‌سازی بدون اتلاف داده‌ها برای آن منبع است.

اطلاعات حاصل از مشاهده یک رویداد برابر با منفی لگاریتم احتمال رخ دادن آن تعریف می‌شود؛ به طور طبیعی از هر تابع مناسب برای سنجش میزان اطلاعات یک مشاهده انتظاراتی وجود دارد، شامل اینکه اطلاعات حاصل از یک مشاهده مقداری نامنفی باشد. اطلاعات حاصل از مشاهده‌ی یک رویداد قطعی (یعنی با احتمال یک) صفر باشد و مهمتر از همه اطلاعات حاصل از دو مشاهده‌ی مستقل برابر با جمع اطلاعات حاصل از مشاهده‌ی تک تک آن‌ها باشد. می‌توان نشان داد تنها تابعی که سه ویژگی فوق را ارضاء می‌کند تابع منفی لگاریتم احتمال است. میزان اطلاعات با پایه‌های مختلف لگاریتم تنها یک ضریب ثابت با هم اختلاف دارد. متداول‌ترین پایه‌ی لگاریتم در محاسبه‌ی اطلاعات ۲ است که اطلاعات را در واحد بیت یا شانون محاسبه می‌کند.

به طور کلی در علوم و مهندسی، آنتروپی معیاری از میزان ابهام یا بی‌نظمی است. کلود شانون در مقاله‌ی انقلابی خود با نام «A Mathematical Theory of Communication» در سال ۱۹۴۸، آنتروپی شانون را معرفی کرد و پایه گذار نظریه‌ی اطلاعات شد.

تعریف[ویرایش]

آنتروپی متغیر تصادفی گسسته‌ی با تابع جرم احتمال را با نماد نمایش می‌دهند و به صورت زیر تعریف می‌شود:

در رابطه‌ی بالا تابع امید ریاضی و تابع میزان اطلاعات رویداد است. تابعی از یک متغیر تصادفی و در نتیجه یک متغیر تصادفی است. پایه‌ی لگاریتم است و مقادیر مختلف آن آنتروپی را در واحد‌های متفاوتی محاسبه می‌کند. متداول‌ترین مقادیر برای ، 2 و e و 10 هستند که به ترتیب آنتروپی را در واحد‌های بیت و nat و hartley محاسبه می‌کند.

می‌توان آنتروپی را به صورت باز هم نوشت:

همچنین مقدار را صفر در تعریف می‌کنیم که با مشاهده‌ی نیز سازگار است.

آنتروپی متغیر تصادفی به شرط با توزیع احتمال مشترک نیز به صورت زیر تعریف می‌شود:

میانگین اطلاعات حاصل از مشاهده‌ی به شرط اطلاع از را نشان می‌دهد.

مثال[ویرایش]

نمودار آنتروپی نتیجه‌ی پرتاب یک سکه در واحد بیت بر حسب احتمال شیر آمدن آن. هر چقدر احتمال شیر آمدن سکه به 0.5 نزدیکتر باشد ابهام در مورد نتیجه‌ی آن بیشتر است و اطلاع از نتیجه، به طور میانگین اطلاعات بیشتری در بردارد.

متغیر تصادفی را برابر با نتیجه‌ی پرتاب یک سکه در نظر بگیرید که با احتمال شیر و با احتمال خط می‌آید. هرچقدر به نزدیکتر باشد، ابهام در مورد نتیجه‌ی پرتاب بیشتر است و به همین ترتیب اطلاع از نتیجه‌ی پرتاب به طور میانگین اطلاعات بیشتری دربردارد. در واقع بیشترین میزان آنتروپی برای حالت و برابر با ۱ بیت است:

در حالتی که صفر یا یک باشد، هیچ ابهامی در مورد نتیجه‌ی پرتاب وجود ندارد و به همین ترتیب اطلاع از نتیجه‌ی پرتاب هیچ اطلاعاتی در برندارد:

برای حالت انتظار داریم آنتروپی کمتر از حالت یکنواخت و بیشتر از حالت بدون ابهام باشد:

به طور کلی بیشترین میزان آنتروپی برای یک متغیر تصادفی در توزیع یکنواخت و کمترین میزان آنتروپی در توزیعی با یک رویداد قطعی رخ می‌دهد.

فشرده‌سازی داده‌ها[ویرایش]

آنتروپی یک منبع اطلاعات، حد پایین امید بهترین نرخ فشرده‌سازی بدون اتلاف داده‌ برای داده‌های تولید شده توسط آن منبع است. به بیان دقیق‌تر هیچ روش فشرده‌سازی ای وجود ندارد که به طور میانگین مقدار متغیر تصادفی را با کمتر از بیت فشرده کند. این حد پایین بسیار قوی است، به طوری برای دنباله‌های به طول از نتایج از هر منبع تصادفی ، یک روش فشرده‌سازی وجود دارد که به طور میانگین، نتیجه هر مشاهده را حداکثر با بیت فشرده می‌کند.

منابع[ویرایش]