داده‌های گروه‌بندی‌شده

از ویکی‌پدیا، دانشنامهٔ آزاد

داده‌های گروه‌بندی‌شده واژه‌ای آماری است که در آنالیز داده استفاده می‌شود. می‌توان با ایجاد جدولی که توزیع فراوانی متغیر را نشان می‌دهد، یک مجموعه داده خام فراهم کرد. مثلاً جدول فراوانی اغلب به عنوان داده‌های گروه‌بندی شده به کار می‌رود.[۱]

نمونه[ویرایش]

می‌توان با داده‌های خامی که در ادامه ذکر شده‌است، ایده داده‌های گروه‌بندی‌شده را به تصویر کشید:

۲۰ ۲۵ ۲۴ ۳۳ ۱۳
۲۶ ۸ ۱۹ ۳۱ ۱۱
۱۶ ۲۱ ۱۷ ۱۱ ۳۴
۱۴ ۱۵ ۲۱ ۱۸ ۱۷
جدول ۱: مدت زمانی که طول کشید (ثانیه) دانش‌آموزان به یک سؤال ساده ریاضی پاسخ دهند

می‌توان داده‌های بالا را به چند طریق در یک توزیع فراوانی (یا داده‌های گروه‌بندی‌شده) سازمان‌دهی کرد. یک روش استفاده از فواصل به عنوان اساس است.

کمترین مقدار در جدول بالا ۸ و بیشترین مقدار ۳۴ است. بازه بین ۸ تا ۳۴ به چند زیربازه تقسیم می‌شود. تعداد آیتم‌هایی که در هر زیربازه، قرار می‌گیرند شمرده می‌شوند. به این عدد، فراوانی آن زیربازه گویند. نتایج، همانند زیر، در جدول فراوانی ذکر می‌شوند:

زمان (ثانیه) طول کشیده فراوانی
۵ ≤ t <۱۰ ۱
۱۰ ≤ t <۱۵ ۴
۱۵ ≤ t <۲۰ ۶
۲۰ ≤ t <۲۵ ۴
۲۵ ≤ t <۳۰ ۲
۳۰ ≤ t <۳۵ ۳
جدول ۲: توزیع فراوانی زمانی (به ثانیه) که طول کشید تا دسته‌ای از دانش‌آموزان به یک سؤال ساده ریاضی پاسخ دهند

یکی‌دیگر از روش‌های دسته‌بندی‌داده‌ها استفاده از ویژگی‌های کیفی به جای بازه‌های عددی است. برای مثال، فرض کنید در مثال بالا سه نوع دانش‌آموز وجود داشته باشند: ۱) پایین‌تر از معمول، به شرط آن‌که زمان پاسخ‌گویی ۵ تا ۱۴ ثانیه باشد، ۲) معمولی، به شرط آن‌که زمان بین ۱۵ تا ۲۴ ثانیه باشد، و ۳) بیشتر از معمول، به شرط آن‌که زمان پاسخ‌گویی ۲۵ ثانیه و به بالا باشد، در این شرایط داده‌های گروه‌بندی شده به شکل زیر خواهد بود:

فراوانی
پایین‌تر از معمول ۵
معمول ۱۰
بیشتر از معمول ۵
جدول ۳: توزیع فراوانی سه نوع دانش‌آموز

میانگین داده‌های دسته‌بندی‌شده[ویرایش]

می‌توان با رابطه پایین، میانگین جامعه داده‌ها، یعنی ، را با توجه به داده‌های گروه‌بندی شده حساب کرد:

در این رابطه x نقطه میانی زیربازه‌ها و f فراوانی هر زیربازه است. توجه داشته باشید که این مقدار با مقدار میانگین نمونه فرق دارد. میانگین داده‌های بالا را نمی‌توان به این روش حساب کرد:

زیربازه‌ها فراوانی (f) میانه (x) حاصل‌ضرب f و x
بزرگ‌تر یا مساوی ۵ و کوچک‌تر از 10 1 7.5 ۷٫۵
۱۰ ≤ t <۱۵ ۴ ۱۲٫۵ ۵۰
۱۵ ≤ t <۲۰ ۶ ۱۷٫۵ ۱۰۵
۲۰ ≤ t <۲۵ ۴ ۲۲٫۵ ۹۰
۲۵ ≤ t <۳۰ ۲ ۲۷٫۵ ۵۵
۳۰ ≤ t <۳۵ ۳ ۳۲٫۵ ۹۷٫۵
مجموع ۲۰ ۴۰۵

در نتیجه، میانگین داده‌های گروه‌بندی‌شده عبارتند از:

منابع[ویرایش]

  1. Newbold et al. , 2009, pages 14 to 17