کاپای کوهن

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

ضریب کاپای کوهن (به انگلیسی: Cohen's kappa coefficient) یک معیار آماری توافق درون ارزیاب یا توافق درون نویس[۱] برای موارد کیفیتی (مطلق) است. به طور عمومی یک معیار قوی تر از قرارداد محاسبه ساده درصد به شمار می‌رود چون K به طور تصادفی در قرارداد درحال رخ دادن، محاسبه می‌شود.

برخی محققان[۲][نیازمند منبع] درمورد احتمال اینکه K بسامدهای طبقه‌بندی‌های مشاهده شده را به طور دلخواه اختیار کند، نگرانی‌هایی عنوان کرده‌اند که می‌تواند تاثیر قرارداد دست کم گرفته شده را برای یک طبقه‌بندی که به طور معمول استفاده می‌گردد، داشته باشد، K یک معیار قرارداد بیش از حد محافظه کار لحاظ می‌گردد.

دیگران،[۳][نیازمند منبع] این ادعا را که کاپا در قرارداد به طور تصادفی «به حساب آورده می‌شود»، به چالش می‌کشند. برای انجام مؤثر این کار نیاز به یک طرح واضح از چگونگی تاثیر شانس بر روی تصمیمات ارزیاب خواهد بود. اصطلاحاً نظام تصادفی آمار کاپا عنوان می‌کند که وقتی اطمینان کامل وجود ندارد، ارزیاب درواقع حدس می‌زند – یک سناریوی به شدت غیر واقعی.

محاسبات[ویرایش]

کاپای کوهن قرارداد را بین دو ارزیاب که هر کدام N مورد را در C طبقهٔ متقابلاً انحصاری مرتب کرده‌اند، اندازه‌گیری می‌کند. اولین استفاده از آمار شبیه به کاپا مربوط به گالتون (۱۸۹۲) است،[۴] اسمیتون را ببینید (1985).[۵]

معادله برای K عبارتست از:

که در آن Pr(a) قرارداد نسبی مشاهده شده بین ارزیاب‌ها است و Pr(e) احتمال فرضی قرارداد شانس است، با استفاده از دادهٔ مشاهده شده برای محاسبهٔ احتمال‌های هر مشاهده کننده که به صورت اتفاقی بیانگر یکی از دسته‌ها هستند. اگر که ارزیاب‌ها در قرارداد کامل باشند آنگاه K=۱ است. اگر هیچ قراردادی بین ارزیاب‌ها به غیر از آنکه توسط تصادف قابل دست یابی باشد (که توسط Pr(e) تعریف شد)، وجود نداشته باشد، آنگاه K=۰ است. اولین مقاله‌ای که کاپا را به عنوان روشی جدید معرفی کرد توسط جیکوب کوهن در مجلهٔ سنجش آموزشی و روان‌شناسی در ۱۹۶۰ منتشر شد.[۶] یک رقم مشابه، به نام پی توسط اسکوت در ۱۹۵۵ مطرح شد. کاپای کوهن و پی اسکوت در روش محاسبهٔ عبارت Pr(e) با هم متفاوتند. توجه کنید که کاپای کوهن فقط قرارداد بین دو ارزیاب را اندازه می‌گیرد. برای یک اندازه‌گیری قرارداد مشابه (کاپای فلیس) که وقتی بیش از دو ارزیاب باشند، مورد استفاده قرار می گیرد، جوزف فلیس (۱۹۷۱) را ببینید. البته، کاپای فلیس تعمیم چند ارزیاب رقم پی اسکوت است، نه کاپای کوهن.

مثال[ویرایش]

فرض کنید که شما در حال بررسی داده‌های مربوط به یک گروه از ۵۰ نفر که برای یک وام درخواست می‌کنند، هستید. هر درخواست وام توسط دو خواننده خوانده شده‌اند و هر خواننده یا جواب «بله» یا جواب «نه» به درخواست داده است. فرض کنید که دادهٔ شمارندهٔ قبول/رد به شکل زیر است که A و B خواننده‌ها هستند، داده‌های روی قطر چپ به راست نشانگر تعداد قبولی‌ها و داده‌های روی قطر راست به چپ نشانگر تعداد ردی‌ها است:

B
بله نه
A بله ۲۰ ۵
نه ۱۰ ۱۵

توجه کنید که ۲۰ درخواست توسط هر خواننده (A و B) قبول شده و۱۵ درخواست توسط هرکدام رد شده‌اند. پس، درصد قرارداد مشاهده شده می‌شود Pr(a) = (۲۰ +۱۵)/۵۰ = ۰٫۷۰ برای محاسبه Pr(e) (احتمال قرارداد تصادفی) به نکات زیر باید توجه کنیم:

  • خواننده A به ۲۵ متقاضی «بله» گفته و به ۲۵ متقاضی «نه» گفته است. پس خواننده A در ۵۰٪ مدت زمان «بله» گفته است.
  • خواننده B به ۳۰ متقاضی «بله» گفته و به ۲۰ متقاضی «نه» گفته است. پس خواننده B در ۶۰٪ مدت زمان «بله» گفته است.

بنابراین احتمال اینکه با هم «بله» بگویند ۰٫۵۰ . ۰٫۶۰ = ۰٫۳۰ است و احتمال اینکه باهم «نه» بگویند ۰٫۵۰ . ۰٫۴۰ = ۰٫۲۰ می‌باشد. پس احتمال کل قرارداد تصادفی برابر است با Pr(e) = ۰٫۳ +۰٫۲ = ۰٫۵. پس اکنون با محاسبهٔ رابطهٔ مربوط به کاپای کوهن داریم:

منابع[ویرایش]

  1. Carletta, Jean. (1996) Assessing agreement on classification tasks: The kappa statistic. Computational Linguistics, 22(2), pp.  249–254.
  2. Strijbos, J.; Martens, R.; Prins, F.; Jochems, W. (2006). "Content analysis: What are they talking about?". Computers & Education 46: 29–48. doi:10.1016/j.compedu.2005.04.002. 
  3. Uebersax, JS. (1987). "Diversity of decision-making models and the measurement of interrater agreement" (PDF). Psychological Bulletin 101: 140–146. doi:10.1037/0033-2909.101.1.140. 
  4. Galton, F. (1892). Finger Prints Macmillan, London.
  5. Smeeton, N.C. (1985). "Early History of the Kappa Statistic". Biometrics 41: 795. 
  6. Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement 20 (1): 37–46. doi:10.1177/001316446002000104