بافت‌نگار

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از هیستوگرام)
پرش به ناوبری پرش به جستجو
بافت‌نگار

بافت‌نگار نمایشی از توزیع داده‌های کمی پیوسته‌است که می‌تواند تخمینی از توزیع احتمال باشد و اولین بار توسط کارل پیرسون به کار گرفته‌شد.[۱]بافت‌نگار یکی از ۷ ابزار کنترل کیفیت است. تفاوت بافت‌نگار با نمودار میله‌ای در آن است که نمودار میله‌ای مربوط به توزیع دو متغیر تصادفی است ولی بافت‌نگار مربوط به یک متغیر است.

برای رسم بافت نگار ابتدا باید داده‌ها را به بازه‌های کوچک افراز (معمولاً طول بازه‌ها برابر در نظر گرفته‌می‌شود)، سپس تعداد داده‌های هر بازه را محاسبه کرد.[۲]

پس از آن اگر طول بازه‌ها برابر بود، روی هر بازه یک مستطیل با ارتفاع متناسب فراوانی آن بازه کشیده می‌شود.

اگر طول بازه‌ها برابر نبود، روی هر بازه یک مستطیل با مساحت متناسب فراوانی آن بازه کشیده می‌شود. در این حالت محور عمودی دیگر نشان‌دهنده فراوانی نیست بلکه نشان‌دهنده چگالی فراوانی - تعداد پیشامدها بر واحد متغیر تصادفی روی محور افقی - است.

تعریف ریاضیاتی بافت‌نگار[ویرایش]

بافت نگار مجموعه‌ای از توابع است که تعداد پیشامدهای مشاهده‌شده از هر بازه را برمی‌گرداند لذا نمودار بافت‌نگار فقط یک راه از نمایش بافت‌نگار است. اگر تعداد کل پیشامدهای مشاهده‌شده و تعداد بازه‌ها باشد، آنگاه معادلهٔ زیر برای بافت‌نگارهای برقرار است:

بافت‌نگار تجمعی[ویرایش]

بافت‌نگار معمولی و بافت‌نگار تجمعی ۱۰۰۰۰ داده با توزیع نرمال استاندارد

بافت نگار تجمعی مجموعه‌ای از توابع است که فراوانی تجمعی پیشامدهای مشاهده‌شده هر بازه را برمی‌گرداند پس بافت‌نگار تجمعیِ بافت‌نگار به صورت زیر تعریف می‌شود:

تعداد و طول بازه‌ها[ویرایش]

حالت‌های مختلفی برای تعیین بازه‌ها وجود دارد که هرکدام ویژگی‌های مختلفی از داده را آشکار می‌کنند لذا برهم برتری ندارند. هرچه طول بازه‌ها بیشتر باشد، تراکم نقاط کم‌تر می‌شود و نویز ناشی از نمونه‌گیری تصادفی را کاهش می‌دهد. از طرف دیگر هرچه طول بازه‌ها کمتر باشد، تخمین بهتری از توزیع می‌توان پیدا کرد. بعضی تلاش کرده‌اند تا مقداری بهینه برای تعداد بازه‌ها بیابند ولی این روش‌ها معمولاً شامل فرضی قوی روی توزیع‌اند. با توجه به توزیع واقعی داده‌ها و اهداف تحلیل آن‌ها، مقدار متفاوتی برای طول بازه‌ها مناسب خواهدبود.[۳]

مجذور[ویرایش]

[۴]

فرمول استرجس[ویرایش]

برای استفاده از فرمول استرجس داده‌ها باید توزیع تقریباً نرمال داشته باشند. معمولاً این فرمول در حالتی که باشد یا توزیع داده‌ها نرمال نباشد، کاربردی ندارد.[۵]

قانون رایس[ویرایش]

[۶]

فرمول دوآن[ویرایش]

فرمول دوآن بهبودیافتهٔ فرمول استرجس است که کابرد فرمول استرجس را برای داده‌های غیرنرمال افزایش داده‌است.

که تخمین گشتاور سوم چولگی توزیع است و

[۷]

قانون اسکات[ویرایش]

که انحراف معیار داده‌ها و طول بازه است.[۸] قانون اسکات برای داده‌های با توزیع نرمال بهینه است و خطای میانگین مربعات تخمین چگالی را کمینه می‌کند.[۹]

قانون فریدمن - دیاکونیس[ویرایش]

که IQR، دامنه بین چارکی داده‌هاست.[۱۰]

قانون شیمازاکی و شینوموتو[ویرایش]

این قانون براساس کمینه کردن تخمین تابع هزینه است که در آن میانگین داده‌ها و واریانس اریب داده‌هاست.

و

منابع[ویرایش]

  1. Pearson, K. (۱۸۹۵). «Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material». royalsocietypublishing.org. doi:10.1098/rsta.1895.0010. دریافت‌شده در ۲۰۱۸-۱۲-۲۷.
  2. Dennis.، Howitt, (۲۰۰۸). Introduction to statistics in psychology (ویراست ۴th ed). Harlow: Financial Times Prentice Hall. OCLC 231881314. شابک ۹۷۸۰۱۳۲۰۵۱۶۱۳.
  3. N.)، Venables, W. N. (William. Modern applied statistics with S (ویراست ۴th ed). New York. OCLC 49312402. شابک ۰۳۸۷۹۵۴۵۷۰.
  4. «EXCEL Univariate: Histogram». cameron.econ.ucdavis.edu. دریافت‌شده در ۲۰۱۸-۱۲-۲۷.
  5. Sturges, H. A. (۱۹۲۶). «The choice of a class interval». Journal of the American Statistical Association. صص. ۶۵–۶۶. doi:10.1080/01621459.1926.10502161. دریافت‌شده در ۲۰۱۸-۱۲-۲۷. بیش از یک پارامتر |وبگاه= و |ژورنال= داده‌شده است (کمک)
  6. «Online Statistics Education: A Multimedia Course of Study». onlinestatbook.com. دریافت‌شده در ۲۰۱۸-۱۲-۲۷. از |فصل= صرف‌نظر شد (کمک)
  7. Doane DP (۱۹۷۶). «Aesthetic frequency classification». American Statistician (۳۰): ۱۸۱ - ۱۸۳.
  8. Scott، David. W. (۱۹۹۲). Multivariate Density Estimation: Theory, Practice, and Visualization.
  9. Scott, David W. (1979-12-01). "On optimal and data-based histograms". Biometrika. 66 (3): 605–610. doi:10.1093/biomet/66.3.605. ISSN 0006-3444.
  10. Diaconis, Persi; Freedman, David (1981-12-01). "On the histogram as a density estimator:L2 theory". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 57 (4): 453–476. doi:10.1007/BF01025868. ISSN 1432-2064.