پراکندگی (آمار)

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از سنجش‌های پراکندگی)
پرش به ناوبری پرش به جستجو
مثالی از دو متغیر تصادفی که داده‌های آبی پراکندگی بیش‌تری نسبت به داده‌های متغیر قرمز رنگ دارند.

در آمار و احتمال منظور از ‌‌‌‌‍‍‌‌سنجش‌های پراکندگی (به انگلیسی: Measures of variability) اعدادی است که تغییرات یک متغیر تصادفی را حول امید ریاضی آن نشان می‌دهند. [۱]

پراکندگی مهم‌ترین مفهوم در آمار است. [۲] هدف از اندازه‌گیری معمولاً پیدا کردن تغییرات و توجیه آن‌هاست. هرچه پراکندگی کمتر باشد، پیش‌بینی مقدار یک متغیر تصادفی با کمک مقدار میانگینش دقیق‌تر می‌شود؛ به عبارت دیگر، پراکندگی می‌تواند دقتِ یک پیش‌بینی را نشان دهد.

دامنه یا دامنه‌ی بین چارکی ، واریانس و انحراف معیار، از مثال‌های معروف سنجش‌های پراکندگی هستند.

معیارها[ویرایش]

همه‌ی شاخص‌های پراکندگی، اعدادی غیر منفی و حقیقی هستند که در صورت یکسان بودن همه‌ی داده‌ها صفر می‌شوند و هرچه اختلاف داده‌ها از میانگین بیش‌تر باشد، این شاخص‌ها بزرگ‌تر می‌شوند. در ادامه بعضی از این شاخص‌های پراکندگی شرح داده شده‌اند.

دامنه و دامنه‌ی بین چارکی[۲][ویرایش]

دامنه ساده‌ترین راه برای نشان دادن پراکندگی داده‌هاست که از تفاضل مقدار کمینه‌ی آن‌ها از بیشینه به دست می‌آید. استفاده از دامنه هنگامی که در جامعه‌ی آماری داده‌های پرت وجود دارد یا جامعه دارای استثناست، نمی‌تواند معیار مناسبی برای نشان دادن پراکندگی باشد. اشکال دیگر دامنه این است که به تعداد داده‌ها بستگی ندارد و با افزایش داده‌برداری نمی‌توان به اطلاعات دقیق‌تری از پراکندگی داده‌ها رسید.

یک راه برای اصلاح دامنه این است که یک چهارم داده‌ها را از دو طرف حذف کرد و دامنه‌ی نصف باقی‌مانده‌ی داده‌ها را محاسبه کرد. به این شاخص دامنه‌ی بین چارکی می‌گویند و آن را با IQR نشان می‌دهند که بیان‌کننده‌ی فاصله‌ی بین چارک اول و چارک سوم است. چارک اول در واقع میانه‌ی نیمه‌ی اول داده‌ها و چارک سوم میانه‌ی نیمه‌ی دوم داده‌هاست. دامنه‌ی بین چارکی پراکندگی و تغییرات داده‌ها را بهتر نشان می‌دهد اما مشکلش این است که در محاسبه‌ی آن زیرمجموعه‌ای از داده‌ها انتخاب شده‌اند و همه‌ی آن‌ها در مقدار آن تأثیر ندارند.

واریانس و انحراف معیار [۳][ویرایش]

اختلاف هر یک از داده‌ها از میانگین فاصله‌ی آن‌ها را از میانگین نشان می‌دهد. محاسبه‌ی اختلاف هر یک از داده‌ها معیار خوبی برای تعیین پراکندگی یک متغیر تصادفی حول میانگینش است اما جمع این اختلاف‌ها واضح است که همواره صفر می‌شود. برای حل این مشکل مجموع توان دوم این اختلاف‌ها را برابر واریانس تعریف کرده‌اند که محاسبه‌ی آن برای متغیرهای تصادفی گسسته و پیوسته با میانگین μ به شرح زیر است:

واحد واریانس توان دوم متغیر تصادفی است. برای این که شاخص پراکندگی با متغیر تصادفی هم واحد شود، جذر واریانس را حساب کرده و به عنوان شاخص پراکندگی جدید به نام انحراف معیار تعریف می‌کنند. این شاخص مهم‌ترین و پرکاربردترین شاخص پراکندگی است.

میانه قدر مطلق انحراف [۲][ویرایش]

در محاسبه‌ی واریانس و انحراف معیار از مقدار میانگین استفاده می‌شود و چون فاصله‌ی داده‌ها از میانگین به توان دو می‌رسد، داده‌های پرت تأثیر بیش‌تری روی آن می‌گذارند. برای حل این مشکل میانه قدر مطلق انحراف (به انگلیسی: Median Absolute Deviation) یا به اختصار MAD تعریف می‌شود. برای به دست آوردن آن، قدر مطلق اختلاف همه‌ی داده‌ها با میانگین را محاسبه می‌کنند واز کوچک به بزرگ مرتب می‌کنند. میانه‌ی این اختلاف‌ها برابر MAD خواهد بود.

ارتباط پراکندگی و توزیع [۲][ویرایش]

با نمایش داده‌ها می‌توان بررسی کرد که پراکندگی یک متغیر تصادفی به کدام توزیع نزدیک‌تر است. به عنوان مثال، پراکندگی داده‌برداری‌های استاندارد شده، اندازه‌گیری IQ و سایر داده‌هایی را که از جمع چند متغیر تصادفی یکسان به دست می‌آیند و بر اساس تئوری انتظار می‌رود که از توزیع نرمال پیروی کنند، می‌توان از طریق واریانس تابع توزیع نرمال به دست آورد.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. راس، شلدون. نخستین درس احتمال. ترجمهٔ دکتر حسنعلی آذرنوش، دکتر الوالقاسم بزرگ‌نیا، دکتر علی مشکانی و دکتر حسینعلی نیرومند. انتشارات فردوسی مشهد، ۱۳۷۶. ۳۱۴. شابک ‎ISBN:۹۶۴-۶۳۳۵-۰۷-۱. 
  2. ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ D. Rindskopf و M. Shiyko. «شاخص‌های پراکندگی، چولگی و کشیدگی». الزویر، 2010. 
  3. Papoulis, Athanasios (2002). Probability, Random Variables, and Stochastic Processes. Elizabeth A. Jones. ISBN 0-07-366011-6.