آزمون مربع کای

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از آزمون خی‌دوی پیرسون)
توزیع مربع کای که با χ2 بر روی محور x نمایش داده می‌شود و مقدار p بر روی محور y نمایش داده می‌شود.

آزمون توزیع نرمال یا ازمون مربع کای یا آزمون خی 2 که به صورت (به انگلیسی: Chi-squared test) نوشته میشود از آزمون‌های آماری است و برای ارزیابی میزان ارتباط متغیرهای اسمی نسبت به هم به کار می‌رود.برای تعیین اینکه بدانیم آیا از نظر آماری اختلاف معنی داری بین مقادیر فراوانی مشاهدات و فراوانی مورد انتظاردر یک یا چند گروه از جدول توافقی (دوطرفه) وجود دارد ، از آزمون کای-۲ پیرسون استفاده می شود. در کاربردهای معمول این آزمون ، مشاهدات به کلاسهای جدا از هم تقسیم می شوند. اگر فرضیه صفر مبنی بر اینکه هیچ تفاوتی بین طبقات در جمعیت وجود ندارد درست باشد ، آمار آزمون محاسبه شده مشاهدات توزیع فراوانی را دنبال می کند. هدف از این آزمون ارزیابی چگونگی احتمال فرضیه صفر در فراوانی مشاهدات است.

مقدار کای-۲ طبق رابطه زیر محاسبه میشود

که در آن

O = مقدار مشاهده شده ( فراوانی هر داده)
E = فراوانیهای مورد انتظار

پس از محاسبه جدول فراوانی های مورد انتظار و محاسبه مقدار درجه آزادی با مقایسه مقدار های به دست آمده با جدول توزیع مربع کای میتوان در مورد اینکه دو متغیر با هم ارتباط دارند یا خیر نتیجه گیری کرد

این آزمون تنها راه حل موجود برای آزمون همگنی در مورد متغیرهای مقیاس اسمی با بیش از دو مقوله است؛ بنابراین، کاربرد خیلی زیادتری نسبت به آزمونهای دیگر دارد. این آزمون نسبت به حجم نمونه حساس است.

آزمون مربع کای برای تعیین تفاوت‌ها میان چند چیز هم بکار می‌رود. که یکی از اساسی ترین کاربرد های آن در علوم کامپیوتر به خصوص مبحث یادگیری ماشین و یادگیری عمیق است.

نمونه عملی ازمون کای 2 یک داده طبقه ای

فرض کنید یک شهر 1،000،000 نفری با چهار محله: A ، B ، C ، و D. وجود دارد. یک نمونه تصادفی از 650 نفر از ساکنان شهر انتخاب شده و شغل آنها شامل کارگر یقه‌سفید ، کارگر یقه‌آبی یا کارگر یقه‌صورتی بودند. فرضیه صفر این است که محل زندگی هر شخص مستقل از طبقه بندی شغلی فرداست. جدول مشاهداتی به صورت ذیل آورده شده است:

A B C D جمع
یقه سفید 90 60 104 95 349
یقه آبی 30 50 51 20 151
یقه صورتی 30 40 45 35 150
جمع 150 150 200 150 650

حال براساس محله A، 150، تخمین بزنید که چه نسبتی از کل 1،000،000 در محله زندگی می کنند A به همین ترتیب 349/ 650 را برآورد کنید که نسبت آن بر 1،000،000 نفر یقه سفید نشان می دهد. با فرض مستقل بودن، طبق این فرضیه باید "انتظار داشته باشیم" تعداد کارگران یقه سفید در محله A بصورت زیر باشد باشد.

سپس در آن "سلول" جدول، خواهیم داشت:

مجموع این مقادیر در کل سلول ها ، آماره کای 2 است. در این حالت حدود است. در فرضیه صفر ، این مجموع تقریباً دارای یک توزیع کای 2 است که تعداد درجات آزادی آن برابر است با

اگر آماره آزمون با توجه به آن توزیع مجذور کای 2 مورد انتظار زیاد باشد ، فرضیه صفر مستقل رد می شود.

یک مسئله مرتبط، آزمون هم توزیعی است. فرض کنید به جای اینکه به هر ساکن از هر چهار محله فرصت برابری برای درج در نمونه بدهیم ، از قبل تصمیم بگیریم که تعداد ساکنان هر محله تعیین شود. پس از آن هر ساکن همان شانس انتخاب را دارد که همه ساکنان یک محله یکسان هستند ، اما اگر چهار اندازه نمونه متناسب با جمعیت چهار محله نباشد ، ساکنان محله های مختلف احتمال انتخاب آنها متفاوت است. در چنین شرایطی ، ما "هم توزیعی" را آزمایش می کنیم تا "مستقل بودن". سئوال این است که آیا نسبت کارگران یقه آبی ، یقه سفید و یقه صورتی در چهار محله یکسان است؟ با این حال ، آزمایش به همان روش انجام می شود.

جستارهای وابسته