آنتروپی اطلاعات: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده

درخط

نسخهٔ ‏۱۹ دسامبر ۲۰۲۲، ساعت ۱۵:۳۲

نظریه اطلاعات
مفاهیم
آنتروپی اطلاعات اطلاعات مشترک نرخ مخابره ظرفیت کانال
چهره‌های مهم
کلود شانون هری نایکویست رالف هارتلی توماس کاور رابرت فانو ریچارد همینگ رابرت گالاگر رادلف السوده آرون واینر
جوایز مهم
جایزه کلود شانون

در نظریه اطلاعات، آنتروپی (به انگلیسی: Entropy) یا اِنتروپی، معیاری عددی برای اندازه‌گرفتن اطلاعات، یا تصادفی‌بودن یک متغیر تصادفی است. به بیان دقیق‌تر،

آنتروپی یک متغیر تصادفی، متوسط اطلاعات آن است.

هرچه آنتروپی یک متغیر تصادفی بیشتر باشد، ابهام ما درباره آن بیشتر است، به این معنی که پس از مشاهده آن، اطلاعات به‌دست‌آمده از آن بیشتر خواهد بود.

آنتروپی یک منبع اطلاعات، حد پایین نرخ بهترین فشرده‌سازی بی‌اتلاف داده‌های آن منبع است.

اطلاعات حاصل از مشاهده یک روی‌داد تصادفی، برابر با منفی لگاریتم احتمال رخ دادن آن تعریف می‌شود. یک تابع برای اندازه‌گرفتن اطلاعات یک روی‌داد تصادفی، ویژگی‌هایی دارد؛

- این‌که اندازه اطلاعات، نامنفی باشد.

- اطلاعات حاصل از مشاهدهٔ یک رویداد قطعی (یعنی با احتمال برابر با یک) صفر باشد.

- و مهم‌تر از همه این‌که، اطلاعات حاصل از دو مشاهدهٔ مستقل، برابر با جمع اطلاعات حاصل از مشاهدهٔ تک‌تک آن‌ها باشد.

می‌توان نشان داد تنها تابعی که این سه ویژگی را برمی‌آورد، منفی لگاریتم احتمال است. اندازۀ اطلاعات با تابع لگاریتم در پایه‌های مختلف، با هم تنها در یک ضریب ثابت اختلاف دارد. متداول‌ترین پایهٔ لگاریتم در محاسبهٔ اطلاعات، ۲ است که اطلاعات را در واحد بیت محاسبه می‌کند.

به‌طور کلی در علوم و مهندسی، آنتروپی معیاری برای ابهام یا بی‌نظمی است. کلود شانون در مقالهٔ انقلابی خود با نام «A Mathematical Theory of Communication» در ۱۹۴۸، آنتروپی شانون را معرفی کرد و پایه‌گذار نظریهٔ اطلاعات شد.^[۱]

مقدمه

ایدهٔ‌ اصلی نظریه اطلاعات این است که «ارزش اطلاعاتی» منتقل شده از طریق یک پیام به میزان غافلگیر کننده بودن این پیام بستگی دارد. اگر یک رویداد بسیار محتمل رخ بدهد، پیام، اطلاعات بسیار کمی را منتقل می‌کند. در عین حال اگر یک رویداد بسیار غیر محتمل رخ دهد، پیام،‌ اطلاعات آگاه‌کننده‌تری را منتقل می‌کند.

تعریف

آنتروپی متغیر تصادفی گسستهٔ $X$ با تابع چگالی احتمال $P(X)$ را با $\mathrm {H} (X)$ نمایش می‌دهند که این‌گونه تعریف می‌شود:

$\mathrm {H} (X)=\mathrm {E} [\mathrm {I} (X)]=\mathrm {E} [-\log _{b}(\mathrm {P} (X))].$

در رابطهٔ بالا

$\mathrm {E} [\cdot ]$ تابع امید ریاضی و $\mathrm {I} (\cdot )$ تابع میزان اطلاعات رویداد است. $\mathrm {I} (X)$ تابعی از یک متغیر تصادفی، و در نتیجه یک متغیر تصادفی است. $b$ پایهٔ لگاریتم است و آنتروپی را با واحدهای متفاوت به دست می‌دهد. متداول‌ترین $b$ ،۲، e، و ۱۰ هستند که به ترتیب آنتروپی را در واحدهای بیت و nat و hartley به دست می‌دهد.

می‌توان آنتروپی $X$ را به صورت باز هم نوشت:

$\mathrm {H} (X)=\sum _{i=1}^{n}{\mathrm {P} (x_{i})\,\mathrm {I} (x_{i})}=-\sum _{i=1}^{n}{\mathrm {P} (x_{i})\log _{b}\mathrm {P} (x_{i})}.$

همچنین، $\mathrm {I} (0)=0\times log(0)$ را صفر تعریف می‌کنیم که با مشاهدهٔ $\lim _{p\to 0+}p\log(p)=0$ نیز سازگار است.

آنتروپی متغیر تصادفی $X$ به شرط $Y$ با توزیع احتمال مشترک $P(X,Y)$ نیز به صورت زیر تعریف می‌شود:

\mathrm {H} (X|Y)=-\sum _{i,j}P(x_{i},y_{j})\log {\frac {P(x_{i},y_{j})}{P(y_{j})}}

$\mathrm {H} (X|Y)$ میانگین اطلاعات حاصل از مشاهدهٔ $X$ به شرط اطلاع از $Y$ را نشان می‌دهد.

نظریه اندازه

آنتروپی را می‌توان به صورت صوری در زبان نظریهٔ اندازه به صورت روبه‌رو تعریف کرد: اگر $(X,\Sigma ,\mu )$ یک فضای احتمالاتی باشد و پیشامد $A\in \Sigma$ را داشته باشیم، مقدار غافلگیری $A$ برابر است با

$\sigma _{\mu }(A)=-\ln \mu (A)$

مثال

متغیر تصادفی $X$ ، نتیجهٔ پرتاب یک سکه با احتمال شیر $p$ و خط $1-p$ است. هرچقدر $p$ به $1 \over 2$ نزدیکتر باشد، ابهام در مورد نتیجهٔ پرتاب بیشتر است و به همین ترتیب اطلاع از نتیجهٔ پرتاب به‌طور میانگین، اطلاعات بیشتری دربردارد. در واقع بیش‌ترین آنتروپی برای $p={1 \over 2}$ و برابر با ۱ بیت است.

$\mathrm {H} (X)=-\sum _{i=1}^{n}{\mathrm {P} (x_{i})\log _{2}\mathrm {P} (x_{i})}=-\sum _{i=1}^{2}{{1 \over 2}\log _{2}({1 \over 2})}=1,$

وقتی $p$ صفر یا یک باشد، هیچ ابهامی درباره نتیجهٔ پرتاب نیست و به همین ترتیب اطلاع از نتیجهٔ پرتاب هیچ اطلاعاتی در برندارد.

$\mathrm {H} (X)=-\left({{0}\log _{2}({0})}+{{1}\log _{2}({1})}\right)=0.$

برای $p={1 \over 4}$ انتظار داریم آنتروپی کمتر از مورد یکنواخت و بیشتر از مورد بی‌ابهام باشد.

$\mathrm {H} (X)=-\left({{1 \over 4}\log _{2}({1 \over 4})}+{{3 \over 4}\log _{2}({3 \over 4})}\right)\approx 0.81$

به‌طور کلی، توزیع یکنواخت، بیشترین آنتروپی، و یک رویداد قطعی، کمترین آنتروپی را دارا هستند.

فشرده‌سازی داده‌ها

آنتروپی یک منبع اطلاعات، حد پایین متوسط بهترین نرخ فشرده‌سازی بدون اتلاف داده‌های آن منبع است. به بیان دقیق‌تر هیچ روش فشرده‌سازی ای وجود ندارد که به‌طور میانگین مقدار متغیر تصادفی $X$ را با کمتر از $\mathrm {H} (X)$ بیت فشرده کند. این حد پایین بسیار قوی است، به‌طوری که برای دنباله‌های به طول $n$ از داده‌های هر منبع تصادفی $X$ ، یک روش فشرده‌سازی وجود دارد که به‌طور میانگین، نتیجه هر مشاهده را حداکثر با $\mathrm {H} (X)+{1 \over n}$ بیت فشرده می‌کند.

کاربرد در یادگیری ماشین

روش‌های یادگیری ماشین به طور عمده مبتنی بر آمار و همچنین نظریه‌ٔ اطلاعات است. به طور کلی، آنتروپی یک معیار برای عدم قطعیت است و هدف یادگیری ماشین کاهش عدم قطعیت است.

الگوریتم‌های یادگیری درخت تصمیم از آنتروپی نسبی استفاده می‌کنند تا قوانین تصمیم‌گیری حاکم بر داده‌ها در هر گره را پیدا کند.^[۲] کسب اطلاعات در درخت‌های تصمیم $IG(Y,X)$ ، که برابر است با تفاوت آنتروپی $Y$ و آنتروپی شرطی $Y$ به شرط $X$ ، اطلاع مورد انتظار را کمیت دهی می‌کند.

مدل‌های استنباط بیزی اغلب با استفاده از اصل حداکثر آنتروپی، توزیع احتمال پیشین را بدست می‌آورند.^[۳] منطق این روش این است که توزیعی که بهترین بیان از دانش ما از حالت کنونی یک سامانه را دارد، همانی است که بیشترین آنتروپی را دارد بنابراین برای توزیع پیشین بودن مناسب است.

طبقه‌بندی در یادگیری ماشین که توسط رگرسیون لجستیک یا شبکه‌های عصبی مصنوعی پیاده‌سازی می‌شود، اغلب از از یک تابع زیان استاندارد، به نام زیان آنتروپی متقاطع، استفاده می‌کند که میانگین آنتروپی متقاطع بین واقعیت و توزیع‌های پیش‌بینی شده را کمینه می‌کند. ^[۴] به طور کلی، آنتروپی متقاطع یک معیار برای محاسبهٔ تفاوت میان ۲ مجموعهٔ داده‌ها است.

جستارهای وابسته

منابع

↑ Shannon, C. E. (1948-10). "A mathematical theory of communication". The Bell System Technical Journal. 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. ISSN 0005-8580. {{cite journal}}: Check date values in: |date= (help)
↑ Batra, Mridula; Agrawal, Rashmi (2018). Panigrahi, Bijaya Ketan; Hoda, M. N.; Sharma, Vinod; Goel, Shivendra (eds.). "Comparative Analysis of Decision Tree Algorithms". Nature Inspired Computing (به انگلیسی). Singapore: Springer: 31–36. doi:10.1007/978-981-10-6747-1_4. ISBN 978-981-10-6747-1.
↑ Jaynes, Edwin T. (1968-09). "Prior Probabilities". IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227–241. doi:10.1109/TSSC.1968.300117. ISSN 2168-2887. {{cite journal}}: Check date values in: |date= (help)
↑ "The Cross‐Entropy Method: A Unified Approach to Combinatorial Optimisation, Monte‐Carlo Simulation and Machine Learning". Kybernetes. 34 (6): 903–903. 2005-07-01. doi:10.1108/03684920510595562. ISSN 0368-492X.

Elements of Information Theory (انگلیسی)

[1] Shannon, C. E. (1948-10). "A mathematical theory of communication". The Bell System Technical Journal. 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. ISSN 0005-8580. {{cite journal}}: Check date values in: |date= (help)

[2] Batra, Mridula; Agrawal, Rashmi (2018). Panigrahi, Bijaya Ketan; Hoda, M. N.; Sharma, Vinod; Goel, Shivendra (eds.). "Comparative Analysis of Decision Tree Algorithms". Nature Inspired Computing (به انگلیسی). Singapore: Springer: 31–36. doi:10.1007/978-981-10-6747-1_4. ISBN 978-981-10-6747-1.

[3] Jaynes, Edwin T. (1968-09). "Prior Probabilities". IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227–241. doi:10.1109/TSSC.1968.300117. ISSN 2168-2887. {{cite journal}}: Check date values in: |date= (help)

[4] "The Cross‐Entropy Method: A Unified Approach to Combinatorial Optimisation, Monte‐Carlo Simulation and Machine Learning". Kybernetes. 34 (6): 903–903. 2005-07-01. doi:10.1108/03684920510595562. ISSN 0368-492X.

[۱]

[۲]

[۳]

[۴]

@@ خط ۱: / خط ۱: @@
+{{نظریه اطلاعات}}
-[[پرونده:Entropy flip 2 coins.jpg|بندانگشتی| آنتروپی نتیجهٔ انداختن دو سکهٔ سالم برابر با ۲ بیت است. هر کدام از چهار حالت ممکن ۰٫۲۵ احتمال دارد. اطلاعات حاصل از هر مشاهده برابر با <math>-log_2({0.25}) = 2</math> و میانگین اطلاعات حالت‌های ممکن برابر با ۲ بیت است.]]
+در [[نظریه اطلاعات]]، '''آنتروپی''' (به [[زبان انگلیسی|انگلیسی]]: Entropy) یا اِنتروپی'''،''' معیاری عددی برای اندازه‌گرفتن اطلاعات، یا تصادفی‌بودن یک [[متغیر تصادفی]] است. به بیان دقیق‌تر،
-در [[نظریه اطلاعات]]، '''آنتروپی،''' معیاری عددی برای اندازه‌گرفتن اطلاعات، یا تصادفی‌بودن یک [[متغیر تصادفی]] است. به بیان دقیق‌تر، آنتروپی یک متغیر تصادفی، [[میانگین حسابی|متوسط]] اطلاعات آن است.
+آنتروپی یک متغیر تصادفی، [[میانگین حسابی|متوسط]] اطلاعات آن است.
 هرچه آنتروپی یک متغیر تصادفی بیشتر باشد، ابهام ما درباره آن بیشتر است، به این معنی که پس از مشاهده آن، اطلاعات به‌دست‌آمده از آن بیشتر خواهد بود.
@@ خط ۱۷: / خط ۱۹: @@
 می‌توان نشان داد تنها تابعی که این سه ویژگی را برمی‌آورد، منفی لگاریتم احتمال است. اندازۀ اطلاعات با تابع لگاریتم در پایه‌های مختلف، با هم تنها در یک ضریب ثابت اختلاف دارد. متداول‌ترین پایهٔ لگاریتم در محاسبهٔ اطلاعات، ۲ است که اطلاعات را در واحد بیت محاسبه می‌کند.
-به‌طور کلی در علوم و مهندسی، آنتروپی معیاری برای ابهام یا بی‌نظمی است. [[کلود شانون]] در مقالهٔ انقلابی خود با نام «A Mathematical Theory of Communication» در ۱۹۴۸، آنتروپی شانون را معرفی کرد و پایه‌گذار نظریهٔ اطلاعات شد.
+به‌طور کلی در علوم و مهندسی، آنتروپی معیاری برای ابهام یا بی‌نظمی است. [[کلود شانون]] در مقالهٔ انقلابی خود با نام «A Mathematical Theory of Communication» در ۱۹۴۸، آنتروپی شانون را معرفی کرد و پایه‌گذار نظریهٔ اطلاعات شد.<ref>{{Cite journal|last=Shannon|first=C. E.|date=1948-10|title=A mathematical theory of communication|url=https://ieeexplore.ieee.org/document/6773067|journal=The Bell System Technical Journal|volume=27|issue=4|pages=623–656|doi=10.1002/j.1538-7305.1948.tb00917.x|issn=0005-8580}}</ref>
+[[پرونده:Entropy flip 2 coins.jpg|بندانگشتی| آنتروپی نتیجهٔ انداختن دو سکهٔ سالم برابر با ۲ بیت است. هر کدام از چهار حالت ممکن ۰٫۲۵ احتمال دارد. اطلاعات حاصل از هر مشاهده برابر با <math>-log_2({0.25}) = 2</math> و میانگین اطلاعات حالت‌های ممکن برابر با ۲ بیت است.]]
+== مقدمه ==
+ایدهٔ‌ اصلی [[نظریه اطلاعات]] این است که «ارزش اطلاعاتی» منتقل شده از طریق یک پیام به میزان غافلگیر کننده بودن این پیام بستگی دارد. اگر یک رویداد بسیار محتمل رخ بدهد، پیام، اطلاعات بسیار کمی را منتقل می‌کند. در عین حال اگر یک رویداد بسیار غیر محتمل رخ دهد، پیام،‌ اطلاعات آگاه‌کننده‌تری را منتقل می‌کند.
 == تعریف ==
@@ خط ۳۹: / خط ۴۶: @@
 <math> \Eta(X|Y)</math> میانگین اطلاعات حاصل از مشاهدهٔ <math>X</math> به شرط اطلاع از <math>Y</math> را نشان می‌دهد.
+=== نظریه اندازه ===
+آنتروپی را می‌توان به صورت صوری در زبان [[اندازه (ریاضیات)|نظریهٔ اندازه]] به صورت روبه‌رو تعریف کرد: اگر <math>(X,\Sigma, \mu)</math> یک [[فضای احتمال|فضای احتمالاتی]] باشد و [[پیشامد]] <math>A \in \Sigma</math> را داشته باشیم، مقدار غافلگیری <math>A</math> برابر است با
+<math>\sigma_\mu (A) = - \ln \mu (A)</math>
 == مثال ==
@@ خط ۶۰: / خط ۷۲: @@
 == فشرده‌سازی داده‌ها ==
 آنتروپی یک منبع اطلاعات، حد پایین متوسط بهترین نرخ فشرده‌سازی بدون اتلاف داده‌های آن منبع است. به بیان دقیق‌تر هیچ روش فشرده‌سازی ای وجود ندارد که '''به‌طور میانگین''' مقدار متغیر تصادفی <math>X</math> را با کمتر از <math>\Eta(X)</math> بیت فشرده کند. این حد پایین بسیار قوی است، به‌طوری که برای دنباله‌های به طول <math>n</math> از داده‌های هر منبع تصادفی <math>X</math>، یک روش فشرده‌سازی وجود دارد که به‌طور میانگین، نتیجه هر مشاهده را حداکثر با <math>\Eta(X) + {1 \over n}</math> بیت فشرده می‌کند.
+== کاربرد در یادگیری ماشین ==
+روش‌های [[یادگیری ماشینی|یادگیری ماشین]] به طور عمده مبتنی بر [[آمار]] و همچنین [[نظریه اطلاعات|نظریه‌ٔ اطلاعات]] است. به طور کلی، آنتروپی یک معیار برای عدم قطعیت است و هدف یادگیری ماشین کاهش عدم قطعیت است.
+الگوریتم‌های [[یادگیری درخت تصمیم]] از [[واگرایی کولبک-لیبلر|آنتروپی نسبی]] استفاده می‌کنند تا قوانین تصمیم‌گیری حاکم بر داده‌ها در هر گره را پیدا کند.<ref>{{Cite journal|last=Batra|first=Mridula|last2=Agrawal|first2=Rashmi|date=2018|editor-last=Panigrahi|editor-first=Bijaya Ketan|editor2-last=Hoda|editor2-first=M. N.|editor3-last=Sharma|editor3-first=Vinod|editor4-last=Goel|editor4-first=Shivendra|title=Comparative Analysis of Decision Tree Algorithms|url=https://link.springer.com/chapter/10.1007/978-981-10-6747-1_4|journal=Nature Inspired Computing|language=en|location=Singapore|publisher=Springer|pages=31–36|doi=10.1007/978-981-10-6747-1_4|isbn=978-981-10-6747-1}}</ref> [[کسب اطلاعات (درخت تصمیم)|کسب اطلاعات در درخت‌های تصمیم]] <math>IG(Y, X)</math>، که برابر است با تفاوت آنتروپی <math>Y</math> و آنتروپی شرطی <math>Y</math> به شرط <math>X</math>، اطلاع مورد انتظار را کمیت دهی می‌کند.
+مدل‌های [[استنباط بیزی]] اغلب با استفاده از [[اصل حداکثر آنتروپی]]، [[توزیع پیشین|توزیع احتمال پیشین]] را بدست می‌آورند.<ref>{{Cite journal|last=Jaynes|first=Edwin T.|date=1968-09|title=Prior Probabilities|url=https://ieeexplore.ieee.org/document/4082152/|journal=IEEE Transactions on Systems Science and Cybernetics|volume=4|issue=3|pages=227–241|doi=10.1109/TSSC.1968.300117|issn=2168-2887}}</ref> منطق این روش این است که توزیعی که بهترین بیان از دانش ما از حالت کنونی یک سامانه را دارد، همانی است که بیشترین آنتروپی را دارد بنابراین برای توزیع پیشین بودن مناسب است.
+[[طبقه‌بندی آماری|طبقه‌بندی در یادگیری ماشین]] که توسط [[رگرسیون لجستیک]] یا [[شبکه عصبی مصنوعی|شبکه‌های عصبی مصنوعی]] پیاده‌سازی می‌شود، اغلب از از یک [[تابع هزینه|تابع زیان]] استاندارد، به نام زیان [[آنتروپی متقاطع]]، استفاده می‌کند که میانگین آنتروپی متقاطع بین واقعیت و توزیع‌های پیش‌بینی شده را کمینه می‌کند. <ref>{{Cite journal|date=2005-07-01|title=The Cross‐Entropy Method: A Unified Approach to Combinatorial Optimisation, Monte‐Carlo Simulation and Machine Learning|url=http://dx.doi.org/10.1108/03684920510595562|journal=Kybernetes|volume=34|issue=6|pages=903–903|doi=10.1108/03684920510595562|issn=0368-492X}}</ref> به طور کلی، آنتروپی متقاطع یک معیار برای محاسبهٔ تفاوت میان ۲ مجموعهٔ داده‌ها است.
+== جستارهای وابسته ==
+* [[آنتروپی|آنتروپی (ترمودینامیک)]]
+* [[آنتروپی متقاطع]]
+* [[آنتروپی (پیکان زمان)]]
+* [[کدگذاری آنتروپی]]
+* [[اطلاع فیشر]]
+* [[فاصله همینگ|فاصلهٔ همینگ]]
+* [[تاریخچه آنتروپی|تاریخچهٔ آنتروپی]]
+* [[فاصله لون‌اشتاین|فاصلهٔ لون‌اشتاین]]
+* [[اطلاعات متقابل|اطلاعات مقابل]]
+* [[سرگشتگی]]
+* [[اعداد تصادفی]]
+* [[شاخص تنوع|شاخص شانون]]
 == منابع ==

داده‌های کتابخانه‌ای
کتابخانه‌های ملی	اسپانیا فرانسه (داده‌ها) آلمان اسرائیل ایالات متحده آمریکا ژاپن جمهوری چک
سایر	کاربرد چندوجهی اصطلاحات موضوعی