پارادوکس سیمپسون: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده

درخط

نسخهٔ ‏۱ نوامبر ۲۰۱۸، ساعت ۱۵:۲۵

پارادوکس سیمپسون به یک پدیده در آمار و احتمالات اشاره می‌کند که در آن هنگامی که داده‌ها به صورت دسته‌بندی شده بررسی بشوند نتایج متفاوتی نسبت به زمانی که به صورت کلی و یکجا بررسی شوند نشان می‌دهند. معمولاً یکی از دلایلی که باعث این تفاوت می‌شود نامتوازن بودن دسته‌بندی‌ها است. برای مثال هنگامی بررسی دو رخداد A و B هنگامی که این دو رخداد به صورت دسته‌بندی‌شده بررسی می‌شوند درصد موفقیت رخداد A در هر دسته نسبت به رخداد B بیشتر است اما هنگامی که داده‌های ایندو رخداد به صورت یکجا بررسی می‌شوند درصد موفقیت رخداد B نسبت به A بیشتر می‌شود که این مخالف نتیجه بدست آمده در حالت قبلی است.

تاریخچه

ادوارد سیمپسون در سال ۱۹۵۱ برای اولین بار به این پدیده در یک مقاله خود اشاره کرد. البته قبل از او نیز کارل پیرسون در سال ۱۸۹۹ و اودنی یول در سال ۱۹۰۳ به مسائلی مشابه این پدیده نیز اشاره کرده بودند.^[۱]

توضیح^[۲]

به بیانی دیگر هنگامی که می‌خواهیم احتمال رویداد $X$ را تحت شرایط $A$ و $B$ در دسته‌بندی‌های $F_{i}$ بررسی کنیم، به ازای هر $i$ اگر $P(X|AF_{i})>P(X|BF_{i})$ باشد لزوماً $P(A)>P(B)$ نیست.

مثال^[۳]

درمان سنگ کلیه

این مثال یک اتفاق واقعی است که در آن در یک مرکز درمانی برای بررسی دو نوع درمان A و B برای بیماری سنگ کلیه، بیماران را به دو دسته تقسیم کرده‌اند دسته اول بیماران با سنگ کلیه کوچک و دسته دوم بیماران با سنگ کلیه بزرگ هستند که نتایج درصد موفقیت درمان‌ها در این آزمایش در جدول زیر آمده‌است.

	درمان A	درمان B
سنگ‌های کوچک	(۸۱/۸۷) ۹۳٪	(۲۳۴/۲۷۰) ۸۷٪
سنگ‌های بزرگ	(۱۹۲/۲۶۳) ۷۳٪	(۵۵/۸۰) ۶۹٪
هر دو	(۲۷۳/۳۵۰) ۷۸٪	(۲۸۹/۳۵۰) ۸۳٪

که با توجه به نتایج درصد موفقیت درمان A هم برای سنگ‌های کوچک و هم برای سنگ‌های بزرگ بیشتر از درمان B است ولی درصد موفقیت کلی درمان B بیشتر از A است که این نشان دهنده یک تناقض در نتایج داده‌ها است که این اتفاق به دلیل هم‌زمانی دو واقعه زیر است:

اندازه دسته‌بندی‌ها با هم تفاوت زیادی دارند به طوری که برای بیماران با سنگ کلیه کوچک بیشتر درمان B و برای بیماران با سنگ کلیه بزرگ بیشتر درمان A بررسی شده‌است.
تأثیر متغیر اختلاطی بر روی درصدهای موفقیت که در اینجا این متغیر همان اندازه سنگ‌ها است. پس نتیجه این آزمایش تحت تأثیر نوع سنگ‌ها نیز است.

جنسیت (Berkeley gender bias case)

این مثال نیز یک مثال واقعی است که در آن از دانشگاه برکلی به دلیل اختلاف درصد قبولی زنان و مردان شکایت شده. در نتایج بدست آمده قبولی‌ها نشان دهنده آن بود که درصد بیشتری از مردان نسبت به زنان قبول شده‌اند (حدود ۱۰٪ بیشتر).


	تعداد شرکت کننده	درصد قبولی
زن	۸۴۴۲	۴۴٪
مرد	۴۳۲۱	۳۵٪

اما هنگام بررسی این نتایج در ادارات و بخش‌های مختلف در واقع در بیشتر بخش‌ها درصد قبولی زنان بیشتر از مردان است.


بخش	مرد		زن
A	۸۲۵	۶۲٪	۱۰۸	۸۲٪
B	۵۶۰	۶۳٪	۲۵	۶۸٪
C	۳۲۵	۳۷٪	۵۹۳	۳۴٪
D	۴۱۷	۳۳٪	۳۷۵	۳۵٪
E	۱۹۲	۲۸٪	۳۹۳	۲۴٪
F	۲۷۲	۶٪	۳۴۱	۷٪

این اختلاف در نتایج به دلیل این است که زنان تمایل بیشتری داشته‌اند که در بخش‌های درصد قبولی آنها کمتر بوده شرکت کنند اما مردان بیشتر در بخش‌هایی که درصد قبولی آنها بیشتر بوده و رقابت کمتر است شرکت کرده‌اند که این یکی از عواملی است که در هنگام بررسی اختلاف قبولی بررسی نشده بود.

منابع

↑ (PDF) https://ftp.cs.ucla.edu/pub/stat_ser/r414.pdf. پارامتر |عنوان= یا |title= ناموجود یا خالی (کمک)
↑ (PDF) http://www-personal.umich.edu/~hlm/math425/simpson.pdf. پارامتر |عنوان= یا |title= ناموجود یا خالی (کمک)
↑ (PDF) http://www-bcf.usc.edu/~lototsky/MATH218/Simpsons%20paradox.pdf. پارامتر |عنوان= یا |title= ناموجود یا خالی (کمک)

[1] (PDF) https://ftp.cs.ucla.edu/pub/stat_ser/r414.pdf. پارامتر |عنوان= یا |title= ناموجود یا خالی (کمک)

[2] (PDF) http://www-personal.umich.edu/~hlm/math425/simpson.pdf. پارامتر |عنوان= یا |title= ناموجود یا خالی (کمک)

[3] (PDF) http://www-bcf.usc.edu/~lototsky/MATH218/Simpsons%20paradox.pdf. پارامتر |عنوان= یا |title= ناموجود یا خالی (کمک)

[۱]

[۲]

[۳]

@@ خط ۱: / خط ۱: @@
-== پارادوکس سیمپسون ==
 [[پرونده:Simpson_paradox_balances.svg|بندانگشتی|در این شکل درصد موفقیت <math>L_1</math>و <math>L_2</math>به ترتیب کمتر از <math>B_1</math>و <math>B_2</math>هستند اما به صورت جمع درصد موفقیت <math>L</math> بیشتر از <math>B</math>است.]]
-'''پارادوکس سیمپسون''' به یک پدیده در آمار و احتمالات اشاره می کند که در آن هنگامی که داده ها به صورت دسته بندی شده بررسی بشوند نتایج متفاوتی نسبت به زمانی که به صورت کلی و یکجا بررسی شوند نشان می دهند. معمولا یکی از دلایلی که باعث این تفاوت می شود نامتوازن بودن دسته بندی ها است. برای مثال هنگامی بررسی دو رخداد A و B هنگامی که این دو رخداد به صورت دسته بندی شده بررسی می شوند درصد موفقیت رخداد A در هر دسته نسبت به رخداد B بیشتر است اما هنگامی که داده های ایندو رخداد به صورت یکجا بررسی می شوند درصد موفقیت رخداد B نسبت به A بیشتر می شود که این مخالف نتیجه بدست امده در حالت قبلی است.
+'''پارادوکس سیمپسون''' به یک پدیده در آمار و احتمالات اشاره می‌کند که در آن هنگامی که داده‌ها به صورت دسته‌بندی شده بررسی بشوند نتایج متفاوتی نسبت به زمانی که به صورت کلی و یکجا بررسی شوند نشان می‌دهند. معمولاً یکی از دلایلی که باعث این تفاوت می‌شود نامتوازن بودن دسته‌بندی‌ها است. برای مثال هنگامی بررسی دو رخداد A و B هنگامی که این دو رخداد به صورت دسته‌بندی‌شده بررسی می‌شوند درصد موفقیت رخداد A در هر دسته نسبت به رخداد B بیشتر است اما هنگامی که داده‌های ایندو رخداد به صورت یکجا بررسی می‌شوند درصد موفقیت رخداد B نسبت به A بیشتر می‌شود که این مخالف نتیجه بدست آمده در حالت قبلی است.
 == تاریخچه ==
-ادوارد سیمپسون در سال ۱۹۵۱ برای اولین بار به این پدیده در یک مقاله خود اشاره کرد. البته قبل از او نیز کارل پیرسون در سال  ۱۸۹۹ و اودنی یول در سال ۱۹۰۳ به مسائلی مشابه این پدیده نیز اشاره کرده بودند.<ref>{{یادکرد ژورنال|عنوان=|ژورنال=|ناشر=|تاریخ=|زبان=|شاپا=|doi=|پیوند=https://ftp.cs.ucla.edu/pub/stat_ser/r414.pdf|تاریخ دسترسی=}}</ref>
+ادوارد سیمپسون در سال ۱۹۵۱ برای اولین بار به این پدیده در یک مقاله خود اشاره کرد. البته قبل از او نیز کارل پیرسون در سال ۱۸۹۹ و اودنی یول در سال ۱۹۰۳ به مسائلی مشابه این پدیده نیز اشاره کرده بودند.<ref>{{یادکرد ژورنال|عنوان=|ژورنال=|ناشر=|تاریخ=|زبان=|شاپا=|doi=|پیوند=https://ftp.cs.ucla.edu/pub/stat_ser/r414.pdf|تاریخ دسترسی=}}</ref>
 == توضیح<ref>{{یادکرد ژورنال|عنوان=|ژورنال=|ناشر=|تاریخ=|زبان=|شاپا=|doi=|پیوند=http://www-personal.umich.edu/~hlm/math425/simpson.pdf|تاریخ دسترسی=}}</ref> ==
-به بیانی دیگر هنگامی که می خواهیم احتمال رویداد <math>X</math> را تحت شرایط  <math>A</math>و <math>B</math> در دسته بندی های <math>F_i</math> بررسی کنیم، به ازای هر <math>i</math>اگر <math>P(X|AF_i) > P(X|BF_i)</math>باشد لزوما <math>P(A)>P(B)</math>نیست.
+به بیانی دیگر هنگامی که می‌خواهیم احتمال رویداد <math>X</math> را تحت شرایط  <math>A</math>و <math>B</math> در دسته‌بندی‌های <math>F_i</math> بررسی کنیم، به ازای هر <math>i</math>اگر <math>P(X|AF_i) > P(X|BF_i)</math>باشد لزوماً <math>P(A)>P(B)</math>نیست.
 == مثال<ref>{{یادکرد ژورنال|عنوان=|ژورنال=|ناشر=|تاریخ=|زبان=|شاپا=|doi=|پیوند=http://www-bcf.usc.edu/~lototsky/MATH218/Simpsons%20paradox.pdf|تاریخ دسترسی=}}</ref> ==
 === درمان سنگ کلیه ===
-این مثال یک اتفاق واقعی است که در آن در یک مرکز درمانی برای بررسی دو نوع درمان A و B برای بیماری سنگ کلیه ، بیماران را به دو دسته تقسیم کرده اند دسته اول بیماران با سنگ کلیه کوچک و دسته دوم بیماران با سنگ کلیه بزرگ هستند که نتایج درصد موفقیت درمان ها در این آزمایش در جدول زیر آمده است.
+این مثال یک اتفاق واقعی است که در آن در یک مرکز درمانی برای بررسی دو نوع درمان A و B برای بیماری سنگ کلیه، بیماران را به دو دسته تقسیم کرده‌اند دسته اول بیماران با سنگ کلیه کوچک و دسته دوم بیماران با سنگ کلیه بزرگ هستند که نتایج درصد موفقیت درمان‌ها در این آزمایش در جدول زیر آمده‌است.
 {| class="wikitable"
 !
@@ خط ۱۸: / خط ۱۶: @@
 !درمان B
 |-
-|سنگ های کوچک
+|سنگ‌های کوچک
 |(۸۱/۸۷) '''۹۳٪'''
 |(۲۳۴/۲۷۰) '''۸۷٪'''
 |-
-|سنگ های بزرگ
+|سنگ‌های بزرگ
 |(۱۹۲/۲۶۳) '''۷۳٪'''
 |(۵۵/۸۰) '''۶۹٪'''
@@ خط ۳۰: / خط ۲۸: @@
 |(۲۸۹/۳۵۰) '''۸۳٪'''
 |}
-که با توجه به نتایج درصد موفقیت درمان A هم برای سنگ های کوچک و هم برای سنگ های بزرگ بیشتر از درمان B است ولی درصد موفقیت کلی درمان B بیشتر از A است که این نشان دهنده یک تناقض در نتایج داده ها است که این اتفاق به دلیل هم زمانی دو واقعه زیر است :
+که با توجه به نتایج درصد موفقیت درمان A هم برای سنگ‌های کوچک و هم برای سنگ‌های بزرگ بیشتر از درمان B است ولی درصد موفقیت کلی درمان B بیشتر از A است که این نشان دهنده یک تناقض در نتایج داده‌ها است که این اتفاق به دلیل هم‌زمانی دو واقعه زیر است:
-۱. اندازه دسته بندی ها با هم تفاوت زیادی دارند به طوری که برای بیماران با سنگ کلیه کوچک بیشتر درمان B و برای بیماران با سنگ کلیه بزرگ بیشتر درمان A بررسی شده است.
+# اندازه دسته‌بندی‌ها با هم تفاوت زیادی دارند به طوری که برای بیماران با سنگ کلیه کوچک بیشتر درمان B و برای بیماران با سنگ کلیه بزرگ بیشتر درمان A بررسی شده‌است.
+# تأثیر [[اختلاط|متغیر اختلاطی]] بر روی درصدهای موفقیت که در اینجا این متغیر همان اندازه سنگ‌ها است. پس نتیجه این آزمایش تحت تأثیر نوع سنگ‌ها نیز است.
+=== جنسیت (Berkeley gender bias case) ===
-۲. تاثیر [[اختلاط|متغیر اختلاطی]] بر روی درصد های موفقیت که در اینجا این متغیر همان اندازه سنگ ها است. پس نتیجه این آزمایش تحت تاثیر نوع سنگ ها نیز است.
+این مثال نیز یک مثال واقعی است که در آن از دانشگاه برکلی به دلیل اختلاف درصد قبولی زنان و مردان شکایت شده. در نتایج بدست آمده قبولی‌ها نشان دهنده آن بود که درصد بیشتری از مردان نسبت به زنان قبول شده‌اند (حدود ۱۰٪ بیشتر).
-=== جنسیت (Berkeley gender bias case ) ===
-این مثال نیز یک مثال واقعی است که در آن از دانشگاه برکلی به دلیل اختلاف درصد قبولی زنان و مردان شکایت شده. در نتایج بدست آمده قبولی ها نشان دهنده آن بود که درصد بیشتری از مردان نسبت به زنان قبول شده اند(حدود ۱۰٪ بیشتر).
 {| class="wikitable"
 |+
@@ خط ۵۲: / خط ۴۸: @@
 |۳۵٪
 |}
-اما هنگام بررسی این نتایج در ادارات و بخش های مختلف در واقع در بیشتر بخش ها درصد قبولی زنان بیشتر از مردان است.
+اما هنگام بررسی این نتایج در ادارات و بخش‌های مختلف در واقع در بیشتر بخش‌ها درصد قبولی زنان بیشتر از مردان است.
 {| class="wikitable"
 |+
@@ خط ۹۵: / خط ۹۱: @@
 |'''۷٪'''
 |}
-این اختلاف در نتایج به دلیل این است که زنان تمایل بیشتری داشته اند که در بخش های درصد قبولی آنها کمتر بوده شرکت کنند اما مردان بیشتر در بخش هایی که درصد قبولی آنها بیشتر بوده و رقابت کمتر است شرکت کرده اند که این یکی از عواملی است که در هنگام بررسی اختلاف قبولی بررسی نشده بود.
+این اختلاف در نتایج به دلیل این است که زنان تمایل بیشتری داشته‌اند که در بخش‌های درصد قبولی آنها کمتر بوده شرکت کنند اما مردان بیشتر در بخش‌هایی که درصد قبولی آنها بیشتر بوده و رقابت کمتر است شرکت کرده‌اند که این یکی از عواملی است که در هنگام بررسی اختلاف قبولی بررسی نشده بود.
 == منابع ==
+{{پانویس}}
-<references />