آنتروپی اطلاعات: تفاوت میان نسخهها
جزبدون خلاصۀ ویرایش |
افرودن الگو، افزودن بخش مقدمه، افزودن بخش کاربرد در یادگیری ماشین، افزودن منابع |
||
خط ۱: | خط ۱: | ||
{{نظریه اطلاعات}} |
|||
⚫ | |||
در [[نظریه اطلاعات]]، '''آنتروپی''' (به [[زبان انگلیسی|انگلیسی]]: Entropy) یا اِنتروپی'''،''' معیاری عددی برای اندازهگرفتن اطلاعات، یا تصادفیبودن یک [[متغیر تصادفی]] است. به بیان دقیقتر، |
|||
آنتروپی یک متغیر تصادفی، [[میانگین حسابی|متوسط]] اطلاعات آن است. |
|||
هرچه آنتروپی یک متغیر تصادفی بیشتر باشد، ابهام ما درباره آن بیشتر است، به این معنی که پس از مشاهده آن، اطلاعات بهدستآمده از آن بیشتر خواهد بود. |
هرچه آنتروپی یک متغیر تصادفی بیشتر باشد، ابهام ما درباره آن بیشتر است، به این معنی که پس از مشاهده آن، اطلاعات بهدستآمده از آن بیشتر خواهد بود. |
||
خط ۱۷: | خط ۱۹: | ||
میتوان نشان داد تنها تابعی که این سه ویژگی را برمیآورد، منفی لگاریتم احتمال است. اندازۀ اطلاعات با تابع لگاریتم در پایههای مختلف، با هم تنها در یک ضریب ثابت اختلاف دارد. متداولترین پایهٔ لگاریتم در محاسبهٔ اطلاعات، ۲ است که اطلاعات را در واحد بیت محاسبه میکند. |
میتوان نشان داد تنها تابعی که این سه ویژگی را برمیآورد، منفی لگاریتم احتمال است. اندازۀ اطلاعات با تابع لگاریتم در پایههای مختلف، با هم تنها در یک ضریب ثابت اختلاف دارد. متداولترین پایهٔ لگاریتم در محاسبهٔ اطلاعات، ۲ است که اطلاعات را در واحد بیت محاسبه میکند. |
||
بهطور کلی در علوم و مهندسی، آنتروپی معیاری برای ابهام یا بینظمی است. [[کلود شانون]] در مقالهٔ انقلابی خود با نام «A Mathematical Theory of Communication» در ۱۹۴۸، آنتروپی شانون را معرفی کرد و پایهگذار نظریهٔ اطلاعات شد. |
بهطور کلی در علوم و مهندسی، آنتروپی معیاری برای ابهام یا بینظمی است. [[کلود شانون]] در مقالهٔ انقلابی خود با نام «A Mathematical Theory of Communication» در ۱۹۴۸، آنتروپی شانون را معرفی کرد و پایهگذار نظریهٔ اطلاعات شد.<ref>{{Cite journal|last=Shannon|first=C. E.|date=1948-10|title=A mathematical theory of communication|url=https://ieeexplore.ieee.org/document/6773067|journal=The Bell System Technical Journal|volume=27|issue=4|pages=623–656|doi=10.1002/j.1538-7305.1948.tb00917.x|issn=0005-8580}}</ref> |
||
⚫ | |||
== مقدمه == |
|||
ایدهٔ اصلی [[نظریه اطلاعات]] این است که «ارزش اطلاعاتی» منتقل شده از طریق یک پیام به میزان غافلگیر کننده بودن این پیام بستگی دارد. اگر یک رویداد بسیار محتمل رخ بدهد، پیام، اطلاعات بسیار کمی را منتقل میکند. در عین حال اگر یک رویداد بسیار غیر محتمل رخ دهد، پیام، اطلاعات آگاهکنندهتری را منتقل میکند. |
|||
== تعریف == |
== تعریف == |
||
خط ۳۹: | خط ۴۶: | ||
<math> \Eta(X|Y)</math> میانگین اطلاعات حاصل از مشاهدهٔ <math>X</math> به شرط اطلاع از <math>Y</math> را نشان میدهد. |
<math> \Eta(X|Y)</math> میانگین اطلاعات حاصل از مشاهدهٔ <math>X</math> به شرط اطلاع از <math>Y</math> را نشان میدهد. |
||
=== نظریه اندازه === |
|||
آنتروپی را میتوان به صورت صوری در زبان [[اندازه (ریاضیات)|نظریهٔ اندازه]] به صورت روبهرو تعریف کرد: اگر <math>(X,\Sigma, \mu)</math> یک [[فضای احتمال|فضای احتمالاتی]] باشد و [[پیشامد]] <math>A \in \Sigma</math> را داشته باشیم، مقدار غافلگیری <math>A</math> برابر است با |
|||
<math>\sigma_\mu (A) = - \ln \mu (A)</math> |
|||
== مثال == |
== مثال == |
||
خط ۶۰: | خط ۷۲: | ||
== فشردهسازی دادهها == |
== فشردهسازی دادهها == |
||
آنتروپی یک منبع اطلاعات، حد پایین متوسط بهترین نرخ فشردهسازی بدون اتلاف دادههای آن منبع است. به بیان دقیقتر هیچ روش فشردهسازی ای وجود ندارد که '''بهطور میانگین''' مقدار متغیر تصادفی <math>X</math> را با کمتر از <math>\Eta(X)</math> بیت فشرده کند. این حد پایین بسیار قوی است، بهطوری که برای دنبالههای به طول <math>n</math> از دادههای هر منبع تصادفی <math>X</math>، یک روش فشردهسازی وجود دارد که بهطور میانگین، نتیجه هر مشاهده را حداکثر با <math>\Eta(X) + {1 \over n}</math> بیت فشرده میکند. |
آنتروپی یک منبع اطلاعات، حد پایین متوسط بهترین نرخ فشردهسازی بدون اتلاف دادههای آن منبع است. به بیان دقیقتر هیچ روش فشردهسازی ای وجود ندارد که '''بهطور میانگین''' مقدار متغیر تصادفی <math>X</math> را با کمتر از <math>\Eta(X)</math> بیت فشرده کند. این حد پایین بسیار قوی است، بهطوری که برای دنبالههای به طول <math>n</math> از دادههای هر منبع تصادفی <math>X</math>، یک روش فشردهسازی وجود دارد که بهطور میانگین، نتیجه هر مشاهده را حداکثر با <math>\Eta(X) + {1 \over n}</math> بیت فشرده میکند. |
||
== کاربرد در یادگیری ماشین == |
|||
روشهای [[یادگیری ماشینی|یادگیری ماشین]] به طور عمده مبتنی بر [[آمار]] و همچنین [[نظریه اطلاعات|نظریهٔ اطلاعات]] است. به طور کلی، آنتروپی یک معیار برای عدم قطعیت است و هدف یادگیری ماشین کاهش عدم قطعیت است. |
|||
الگوریتمهای [[یادگیری درخت تصمیم]] از [[واگرایی کولبک-لیبلر|آنتروپی نسبی]] استفاده میکنند تا قوانین تصمیمگیری حاکم بر دادهها در هر گره را پیدا کند.<ref>{{Cite journal|last=Batra|first=Mridula|last2=Agrawal|first2=Rashmi|date=2018|editor-last=Panigrahi|editor-first=Bijaya Ketan|editor2-last=Hoda|editor2-first=M. N.|editor3-last=Sharma|editor3-first=Vinod|editor4-last=Goel|editor4-first=Shivendra|title=Comparative Analysis of Decision Tree Algorithms|url=https://link.springer.com/chapter/10.1007/978-981-10-6747-1_4|journal=Nature Inspired Computing|language=en|location=Singapore|publisher=Springer|pages=31–36|doi=10.1007/978-981-10-6747-1_4|isbn=978-981-10-6747-1}}</ref> [[کسب اطلاعات (درخت تصمیم)|کسب اطلاعات در درختهای تصمیم]] <math>IG(Y, X)</math>، که برابر است با تفاوت آنتروپی <math>Y</math> و آنتروپی شرطی <math>Y</math> به شرط <math>X</math>، اطلاع مورد انتظار را کمیت دهی میکند. |
|||
مدلهای [[استنباط بیزی]] اغلب با استفاده از [[اصل حداکثر آنتروپی]]، [[توزیع پیشین|توزیع احتمال پیشین]] را بدست میآورند.<ref>{{Cite journal|last=Jaynes|first=Edwin T.|date=1968-09|title=Prior Probabilities|url=https://ieeexplore.ieee.org/document/4082152/|journal=IEEE Transactions on Systems Science and Cybernetics|volume=4|issue=3|pages=227–241|doi=10.1109/TSSC.1968.300117|issn=2168-2887}}</ref> منطق این روش این است که توزیعی که بهترین بیان از دانش ما از حالت کنونی یک سامانه را دارد، همانی است که بیشترین آنتروپی را دارد بنابراین برای توزیع پیشین بودن مناسب است. |
|||
[[طبقهبندی آماری|طبقهبندی در یادگیری ماشین]] که توسط [[رگرسیون لجستیک]] یا [[شبکه عصبی مصنوعی|شبکههای عصبی مصنوعی]] پیادهسازی میشود، اغلب از از یک [[تابع هزینه|تابع زیان]] استاندارد، به نام زیان [[آنتروپی متقاطع]]، استفاده میکند که میانگین آنتروپی متقاطع بین واقعیت و توزیعهای پیشبینی شده را کمینه میکند. <ref>{{Cite journal|date=2005-07-01|title=The Cross‐Entropy Method: A Unified Approach to Combinatorial Optimisation, Monte‐Carlo Simulation and Machine Learning|url=http://dx.doi.org/10.1108/03684920510595562|journal=Kybernetes|volume=34|issue=6|pages=903–903|doi=10.1108/03684920510595562|issn=0368-492X}}</ref> به طور کلی، آنتروپی متقاطع یک معیار برای محاسبهٔ تفاوت میان ۲ مجموعهٔ دادهها است. |
|||
== جستارهای وابسته == |
|||
* [[آنتروپی|آنتروپی (ترمودینامیک)]] |
|||
* [[آنتروپی متقاطع]] |
|||
* [[آنتروپی (پیکان زمان)]] |
|||
* [[کدگذاری آنتروپی]] |
|||
* [[اطلاع فیشر]] |
|||
* [[فاصله همینگ|فاصلهٔ همینگ]] |
|||
* [[تاریخچه آنتروپی|تاریخچهٔ آنتروپی]] |
|||
* [[فاصله لوناشتاین|فاصلهٔ لوناشتاین]] |
|||
* [[اطلاعات متقابل|اطلاعات مقابل]] |
|||
* [[سرگشتگی]] |
|||
* [[اعداد تصادفی]] |
|||
* [[شاخص تنوع|شاخص شانون]] |
|||
== منابع == |
== منابع == |
نسخهٔ ۱۹ دسامبر ۲۰۲۲، ساعت ۱۵:۳۲
مفاهیم | |
چهرههای مهم | |
کلود شانون | |
جوایز مهم | |
در نظریه اطلاعات، آنتروپی (به انگلیسی: Entropy) یا اِنتروپی، معیاری عددی برای اندازهگرفتن اطلاعات، یا تصادفیبودن یک متغیر تصادفی است. به بیان دقیقتر،
آنتروپی یک متغیر تصادفی، متوسط اطلاعات آن است.
هرچه آنتروپی یک متغیر تصادفی بیشتر باشد، ابهام ما درباره آن بیشتر است، به این معنی که پس از مشاهده آن، اطلاعات بهدستآمده از آن بیشتر خواهد بود.
آنتروپی یک منبع اطلاعات، حد پایین نرخ بهترین فشردهسازی بیاتلاف دادههای آن منبع است.
اطلاعات حاصل از مشاهده یک رویداد تصادفی، برابر با منفی لگاریتم احتمال رخ دادن آن تعریف میشود. یک تابع برای اندازهگرفتن اطلاعات یک رویداد تصادفی، ویژگیهایی دارد؛
- اینکه اندازه اطلاعات، نامنفی باشد.
- اطلاعات حاصل از مشاهدهٔ یک رویداد قطعی (یعنی با احتمال برابر با یک) صفر باشد.
- و مهمتر از همه اینکه، اطلاعات حاصل از دو مشاهدهٔ مستقل، برابر با جمع اطلاعات حاصل از مشاهدهٔ تکتک آنها باشد.
میتوان نشان داد تنها تابعی که این سه ویژگی را برمیآورد، منفی لگاریتم احتمال است. اندازۀ اطلاعات با تابع لگاریتم در پایههای مختلف، با هم تنها در یک ضریب ثابت اختلاف دارد. متداولترین پایهٔ لگاریتم در محاسبهٔ اطلاعات، ۲ است که اطلاعات را در واحد بیت محاسبه میکند.
بهطور کلی در علوم و مهندسی، آنتروپی معیاری برای ابهام یا بینظمی است. کلود شانون در مقالهٔ انقلابی خود با نام «A Mathematical Theory of Communication» در ۱۹۴۸، آنتروپی شانون را معرفی کرد و پایهگذار نظریهٔ اطلاعات شد.[۱]
مقدمه
ایدهٔ اصلی نظریه اطلاعات این است که «ارزش اطلاعاتی» منتقل شده از طریق یک پیام به میزان غافلگیر کننده بودن این پیام بستگی دارد. اگر یک رویداد بسیار محتمل رخ بدهد، پیام، اطلاعات بسیار کمی را منتقل میکند. در عین حال اگر یک رویداد بسیار غیر محتمل رخ دهد، پیام، اطلاعات آگاهکنندهتری را منتقل میکند.
تعریف
آنتروپی متغیر تصادفی گسستهٔ با تابع چگالی احتمال را با نمایش میدهند که اینگونه تعریف میشود:
در رابطهٔ بالا
تابع امید ریاضی و تابع میزان اطلاعات رویداد است. تابعی از یک متغیر تصادفی، و در نتیجه یک متغیر تصادفی است. پایهٔ لگاریتم است و آنتروپی را با واحدهای متفاوت به دست میدهد. متداولترین ،۲، e، و ۱۰ هستند که به ترتیب آنتروپی را در واحدهای بیت و nat و hartley به دست میدهد.
میتوان آنتروپی را به صورت باز هم نوشت:
همچنین، را صفر تعریف میکنیم که با مشاهدهٔ نیز سازگار است.
آنتروپی متغیر تصادفی به شرط با توزیع احتمال مشترک نیز به صورت زیر تعریف میشود:
میانگین اطلاعات حاصل از مشاهدهٔ به شرط اطلاع از را نشان میدهد.
نظریه اندازه
آنتروپی را میتوان به صورت صوری در زبان نظریهٔ اندازه به صورت روبهرو تعریف کرد: اگر یک فضای احتمالاتی باشد و پیشامد را داشته باشیم، مقدار غافلگیری برابر است با
مثال
متغیر تصادفی ، نتیجهٔ پرتاب یک سکه با احتمال شیر و خط است. هرچقدر به نزدیکتر باشد، ابهام در مورد نتیجهٔ پرتاب بیشتر است و به همین ترتیب اطلاع از نتیجهٔ پرتاب بهطور میانگین، اطلاعات بیشتری دربردارد. در واقع بیشترین آنتروپی برای و برابر با ۱ بیت است.
وقتی صفر یا یک باشد، هیچ ابهامی درباره نتیجهٔ پرتاب نیست و به همین ترتیب اطلاع از نتیجهٔ پرتاب هیچ اطلاعاتی در برندارد.
برای انتظار داریم آنتروپی کمتر از مورد یکنواخت و بیشتر از مورد بیابهام باشد.
بهطور کلی، توزیع یکنواخت، بیشترین آنتروپی، و یک رویداد قطعی، کمترین آنتروپی را دارا هستند.
فشردهسازی دادهها
آنتروپی یک منبع اطلاعات، حد پایین متوسط بهترین نرخ فشردهسازی بدون اتلاف دادههای آن منبع است. به بیان دقیقتر هیچ روش فشردهسازی ای وجود ندارد که بهطور میانگین مقدار متغیر تصادفی را با کمتر از بیت فشرده کند. این حد پایین بسیار قوی است، بهطوری که برای دنبالههای به طول از دادههای هر منبع تصادفی ، یک روش فشردهسازی وجود دارد که بهطور میانگین، نتیجه هر مشاهده را حداکثر با بیت فشرده میکند.
کاربرد در یادگیری ماشین
روشهای یادگیری ماشین به طور عمده مبتنی بر آمار و همچنین نظریهٔ اطلاعات است. به طور کلی، آنتروپی یک معیار برای عدم قطعیت است و هدف یادگیری ماشین کاهش عدم قطعیت است.
الگوریتمهای یادگیری درخت تصمیم از آنتروپی نسبی استفاده میکنند تا قوانین تصمیمگیری حاکم بر دادهها در هر گره را پیدا کند.[۲] کسب اطلاعات در درختهای تصمیم ، که برابر است با تفاوت آنتروپی و آنتروپی شرطی به شرط ، اطلاع مورد انتظار را کمیت دهی میکند.
مدلهای استنباط بیزی اغلب با استفاده از اصل حداکثر آنتروپی، توزیع احتمال پیشین را بدست میآورند.[۳] منطق این روش این است که توزیعی که بهترین بیان از دانش ما از حالت کنونی یک سامانه را دارد، همانی است که بیشترین آنتروپی را دارد بنابراین برای توزیع پیشین بودن مناسب است.
طبقهبندی در یادگیری ماشین که توسط رگرسیون لجستیک یا شبکههای عصبی مصنوعی پیادهسازی میشود، اغلب از از یک تابع زیان استاندارد، به نام زیان آنتروپی متقاطع، استفاده میکند که میانگین آنتروپی متقاطع بین واقعیت و توزیعهای پیشبینی شده را کمینه میکند. [۴] به طور کلی، آنتروپی متقاطع یک معیار برای محاسبهٔ تفاوت میان ۲ مجموعهٔ دادهها است.
جستارهای وابسته
- آنتروپی (ترمودینامیک)
- آنتروپی متقاطع
- آنتروپی (پیکان زمان)
- کدگذاری آنتروپی
- اطلاع فیشر
- فاصلهٔ همینگ
- تاریخچهٔ آنتروپی
- فاصلهٔ لوناشتاین
- اطلاعات مقابل
- سرگشتگی
- اعداد تصادفی
- شاخص شانون
منابع
- ↑ Shannon, C. E. (1948-10). "A mathematical theory of communication". The Bell System Technical Journal. 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. ISSN 0005-8580.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Batra, Mridula; Agrawal, Rashmi (2018). Panigrahi, Bijaya Ketan; Hoda, M. N.; Sharma, Vinod; Goel, Shivendra (eds.). "Comparative Analysis of Decision Tree Algorithms". Nature Inspired Computing (به انگلیسی). Singapore: Springer: 31–36. doi:10.1007/978-981-10-6747-1_4. ISBN 978-981-10-6747-1.
- ↑ Jaynes, Edwin T. (1968-09). "Prior Probabilities". IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227–241. doi:10.1109/TSSC.1968.300117. ISSN 2168-2887.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ "The Cross‐Entropy Method: A Unified Approach to Combinatorial Optimisation, Monte‐Carlo Simulation and Machine Learning". Kybernetes. 34 (6): 903–903. 2005-07-01. doi:10.1108/03684920510595562. ISSN 0368-492X.
- Elements of Information Theory (انگلیسی)