نرخ کشف نادرست
میزان کشف اشتباه یک روش برای بررسی میزان خطای نوع اول در آزمون فرضهای همزمان است، که در آنها سطح معنیداری تفاوت آمارههای مختلف در تعداد زیادی آزمون مشابه همزمان سنجیده میشود. میزان کشف اشتباه در واقع یک معیار آزادانهتر نسبت به میزان خطای خانوادگی (family-wise error rate) است و نشاندهندهٔ نسبت فرضهای واقعاً صفری که توسط آزمونها رد میشوند به تمام فرضهایی که توسط آزمونها رد میشوند، است .(منظور از کشف در اینجا فرض صفر رد شدهاست) میتوان نشان داد که در مجموع کنترل این معیار نسبت به کنترل میزان خطای خانوادگی توان آماری بالاتری بهدست میدهد.
پیشینه
[ویرایش]مقدمه
[ویرایش]از دهۀ آخر قرن بیستم، محاسبات الکترونیکی به تنها ابزار برای پیشبرد تبدیل شد. تقریباً تمامی کاربردهای آمار توسط مجموعه ای از پلتفورمهای کامپیوتری اجرا میشدند. ابزارهایی مانند SAS, SPSS, Minitab, Matlab, S، و بعدها R.
این روند از ابتدای قرن بیست و یکم سرعت گرفت و ابزارهای آماری بیشتر و کاراتر برای تحلیل حجم عظیم دادهها ابداع شد. این پیشرفت سریع در واقع مانند دو جنبه داشت، از طرفی ابداع روزافزون روشهای آماری که به دنبال مجموعه دادههای بزرگتر بودند و از طرفی تلاش برای نگه داشتن بنیانهای علمی آمار و تصحیح روشهای نوین.
برای بسیاری از آماردانها، میکروآرایهها برای اولین بار به عنوان نمونه ای از دادههای بزرگ-مقیاس مطرح شدند. تکنولوژی میکروآرایه که در واقع یک انقلاب در ابزارهای زیست-پزشکی نوین در اواخر قرن بیستم بود، بررسی فعالیت هزاران ژن را در یک آزمایش ممکن میساخت. با این امکان، نیاز به انجام هزاران آزمون فرض همزمان ایجاد شد. آزمونهایی که در نهایت بنا است تا تعداد محدودی از ژنها را به عنوان ژنهای تأثیرگذار (و با میزان بیان معنیدار-متفاوت در گروه تحت آزمون) معرفی کنند.
با رایج شدن تکنولوژیهای پرتوان، محدودیتهای فنی یا مالی محققین را مجبور میکرد که مجموعهدادههای با تعداد کم نمونه (برای مثال تعداد کم افراد تحت آزمایش) و برای هر نمونه تعداد زیادی متغیر (برای مثلاً هزاران سطح بیان ژنی) جمعآوری کنند. در این مجموعهدادهها، با استفاده از روشهای کلاسیک تعداد بسیار کمی از متغیرهای اندازهگیریشده سطح معنی داری آماری بالایی نشان میدادند. این چالش در بسیاری از جوامع علمی نیاز به روشی جایگزین را برای معیار میزان خطای خانوادگی و آزمونهای فرض همزمان تصحیح نشده ایجاد کرد. تا پیش از آن از این روشها به منظور تعیین و رتبهبندی متغیرهای تأثیرگذار در مقالات استفاده میشد، در حالی که نتایج به دست آمده از این روشها با واقعیت فاصله زیادی داشتند. برای حل این مسئله معیارهای مختلفی پیشنهاد شد که از برخی از آنها در مقالات هم استفاده میشد. این معیارها نسبت به میزان خطای خانوادگی آزادانهتر عمل کردند.
مقالات
[ویرایش]میزان کشف اشتباه در سال ۱۹۹۵ توسط بنجامینی و هوشبرگ به عنوان یک روش آزادانهتر و مسلماً مناسبتر در حل این مسئله معرفی شد. معرفی میزان کشف اشتباه یک اتفاق بسیار مهم در این رشته بود، زیرا برای اولین بار به عنوان جایگزین مناسبی برای میزان خطای خانوادگی به خصوص در علوم طبیعی مانند ژنتیک، بیوشیمی و علوم گیاهی شناخته شد. در سال ۲۰۰۵، مقالهٔ بنجامینی و هوشبرگ به عنوان یکی از ۲۵ پرارجاعترین مقالات در زمینهٔ شناختهشد.[۱]
پیش از معرفی میزان کشف اشتباه در سال ۱۹۹۵ ایدههای متنوعی مد نظر آماردانان بود. در سال ۱۹۷۹، هولم رویهٔ هولم را پیشنهاد کرد،[۲] یک الگوریتم گام به گام برای کنترل کردن میزان خطای خانوادگی که حداقل به اندازهٔ رویهٔ اصلاح بونفرونی دارای توان آماری بود. این الگوریتم گام به گام پی-مقدارها را مرتب میکند و به ترتیب فرضهای صفر را با شروع از کوچکترین پی-مقدار رد میکند.
بنجامینی در سال ۲۰۱۰ گفت میزان کشف خطا و مقالهاش با هوشبرگ در سال ۱۹۹۵ از دو مقاله با موضوع آزمونهای همزمان منشأ گرفتهاست:
- اولین مقاله توسط شودر و اسپیوتول در سال ۱۹۸۲[۳] که تصویر کردن پی-مقدارهای مرتبشده و سپس ارزیابی تعداد فرضهای صفر () درست از طرق برازش خط به صورت چشمی، با شروع از بزرگترین پی-مقدارها را پیشنهاد میکرد. این ایده بعدها به یک الگوریتم تعمیم پیدا کرد و به این صورت بود که تخمین به کمک روشهایی مانند بونفرونی، هولم یا هوشبرگ انجام میشد.[۴] این ایده بسیار شبیه تفسیر گرافیکی روش بنجامینی-هوشبرگ است.
- مقاله دوم کاری از سوریک در ۱۹۸۹ بود[۵] که کلمهٔ کشف را برای اولین بار در زمینهٔ آزمون فرضهای همزمان به کار برد. سوریک از امید ریاضی تعداد کشفهای اشتباه استفاده کرده بود و ایده اصلیاش این بود که «بسیاری از اکتشافات آمار ممکن است غلط باشند». این ایده بنجامینی و هوشبرگ را به سمت یک میزان خطای مشابه هدایت کرد.
رویهٔ بنجامینی-هوشبرگ در مقاله آنها در سال ۱۹۹۵ ثابت شد. در سال ۱۹۸۶، سیمِس همان رویه را تحت عنوان رویهٔ سیمس پیشنهاد کرد. این رویه میتواند میزان خطای خانوادگی را در حالت ضعیف، زمانی که آمارهها مستقل هستند، کنترل کند.[۶] در سال ۱۹۸۸، هومل نشان داد که روی سیمس میزان خطای خانوادگی را در حالت قوی آن کنترل نمیکند.[۷] بر اساس رویهٔ سیمس، هوشبرگ رویهٔ هوشبرگ را در سال ۱۹۸۸ پیشنهاد کرد که میتوانست میزان خطای خانوادگی را رد حالت قوی و زمانی که مفروضاتی برای وابستگی آمارهها وجود داشت، کنترل کند.[۸]
تعاریف
[ویرایش]بر اساس تعاریف زیر میتوان را به عنوان نسبت از اکتشافات اشتباه به تمام اکتشافات تعریف کرد:
- .
حال میزان کشف اشتباه را میتوان اینگونه تعریف کرد:
که در آن زمانی که برابر ۰ میشود. میخواهیم میزان کشف خطا را کمتر از یک حد نگه داریم.
روشهای کنترل
[ویرایش]تنظیمات برای بسیاری از روشها به گونه است که ما فرض صفر تحت آزمون داریم که پی-مقدارهای مربوط به هر آزمون است. ما این پی-مقدارها را از کوچک به بزرگ مرتب میکنیم و ترتیب جدید را نامگذاری میکنیم. یک روش که از یک پی-مقدار کوچک به یک مقدار بزرگ میرود را روش بالا-گام مینامیم. روش پایین-گام هم به همین نحو تعریف میشود.
روش بنجامینی-هوشبرگ
[ویرایش]روش بنجامینی-هوشبرگ (که یک روش بالا-گام است)، میزان کشف اشتباه را در سطح نگه میدارد. این روش اینگونه عمل میکند:
- برای یک دادهشده، k را پیدا کن که
- تمام فرض صفرهای برای را رد کن.
به لحاظ هندسی، این روش معادل این است که را نسبت به K رسم کنیم، یک خط از مبدأ با شیب بکشیم و تمام فرضهای صفر که بالای خط قرار میگیرند را رد کنیم.
روش بنجامینی-هوشبرگ زمانی که m آزمون مستقل و همچنین در بسیاری از سناریوهای شامل وابستگی معتبر است. به علاوه نامساوی زیر نیز ارضا میشود:
اگر تخمینی از در روش بنجامینی-هوشبرگ قرار داده شود، دیگر نمیتوان تضمین کرد که میزان کشف اشتباه در سطح مورد نظر کنترل شود. ممکن است تصحیحهایی برای تخمینگر مورد نیاز باشد و برای این هم رویکردهای مختلفی پیشنهاد شدهاند.[۹][۱۰][۱۱][۱۲]
توجه داشته باشید که میانگین برای این m آزمون برابر ، میانگین(FDR ) یا MFDR، است. به گونهای که برای m آزمون مستقل (و یا دارای همبستگی مثبت) تنظیم شدهاست. محاسبه MFDR که در اینجا نشانداده خواهد شد، تنها برای یک مقدار است و قسمتی از روش بنجامینی و هوشبرگ نیست. (AFDR را در پایین ببینید)
روش بنجامینی-هوشبرگ-یکوتیلی
[ویرایش]روش بنجامینی-هوشبرگ-یکوتیکلی میزان کشف اشتباه را تحت فرض همبستگی مثبت کنترل میکند.[۱۳] این فرض، آستانه را اصلاح میکند و بزرگترین k را اینگونه میابد که:
- اگر آزمونها از هم مستقل یا همبستهٔ مثبت باشند قرار میدهیم:
- در صورت وجود همبستگی منفی را میتوان با استفاده از ثابت اویل-ماسکرونی تقریب زد:
با استفاده از MFDR و فرمولهای بالا، یک MFDR تصحیح شده، یا AFDR، برای m آزمون مستقل برابر است با .
راه دیگر برای حل مسئله وابستگی استفاده از روشهای بوت استرپ و تصادفیسازی است.
تخمین میزان کشف اشتباه
[ویرایش]فرض کنید نسبت تمام فرضهای صفر صحیح به تمام فرضها باشد و بنابراین نسبت تمام فرضهای ناصفر درست خواهد بود. حال ضرب در میانگین پی-مقدارهای فرضهای رد شده تقسیم بر تعداد فرضهای رد شده تخمینی از میزان کشف اشتباه را بدست میدهد.[نیازمند شفافسازی]
ویژگیها
[ویرایش]تطبیقی و مقیاسپذیر
[ویرایش]استفاده از روشی که از معیار میزان کشف اشتباه استفاده میکند تطبیقی و مقیاسپذیر است. به این معنی که کنترل کردن میزان کشف خطا میتواند بسیار آزادانه یا سختگیرانه عمل کند، بسته به تعداد فرضهای تحت آزمون و سطح معنی داری.
معیار میزان کشف تطبیق پیدا میکند به گونهای که تعداد کشفهای اشتباه (V) نسبت به کل کشفها (R) سنجیدهمیشود. این مورد برعکس میزان خطای خانوادگی است. برای مثال اگر ۱۰۰ فرض برای ۱۰۰ جهش ژنتیکی نقطهای برای یافتن رابطه با رخنمود مدنظر باشد:* اگر ما ۴ کشف (R) انجام دهیم، داشتن دو کشف غلط (V) بسیار هزینهبر است. در حالی که، * اگر ۵۰ اکتشاف انجام دهیم و ۲ تا از آنها غلط باشند هزینهٔ ما چندان زیاد نیست.
معیار میزان کشف اشتباه مقیاسپذیر است به گونهای که نسبت کشفهای اشتباه به کل کشفها (Q)، برای مقادیر مختلف کل کشفها (R)، معقول باقی میماند.
برای مثال:
- اگر ما ۱۰۰ کشف انجام دهیم و ۵ تا از آنها کشف غلط باشند () ما هزینهٔ زیادی را پرداخت نخواهیم کرد.
- بهطور مشابه، اگر ما ۱۰۰۰ کشف را انجام دهیم، و ۵۰ کشف اشتباه رخ دهد، همچنان هزینهٔ ما همان ۵ درصد خطا است.
معیار میزان کشف خطا در حالتی که یک تصحیح را روی مجموعهای از فرضها انجام میدهد، یا دو تصحیح را زمانی انجام میدهد که مجموعه به دو بخش تقسیم شدهاست تفاوتی ندارد، به نحوی که در هر دو حالت نحوه عملکرد تصحیح یکسان است.
وابستگی آمارههای آزمون
[ویرایش]کنترل میزان کشف اشتباه با استفاده از روش بنجامینی-هوشبرگ گام-بالا خطی در سطح q، ویژگیهای مختلفی مرتبط با ساختار وابستگی بین آمارههای آزمون m فرض صفر دارد. در هر یک از شرایط زیر برای آمارههای آزمون داریم:
- مستقل:
- مستقل و پیوسته:
- مثبت وابسته:
- در حالت کلی: که در آن ثابت اویلر–ماسکرونی است.
نسبت فرضهای درست
[ویرایش]اگر تمام فرضهای صفر درست باشند ()، کنترل میزان کشف اشتباه در سطح q کنترل روی میزان خطای خانوادگی را تضمین میکند (به این استفاده «کنترل ضعیف میزان خطای خانوادگی هم میگویند): فقط به خاطر اینکه رد کردن حداقل یکی از فرضهای صفر درست دقیقاً معادل دقیقاً معادل , ). اما چنانچه تعدادی کشف درست صورت گیرد () خواهیم داشت FWER ≥ FDR. در این حالت جا برای بالابردن توان تشخصی وجود خواهد داشت. این همچنین به این معنا است که هر روشی که میزان خطای خانوادگی را کنترل کند، میتواند میزان کشف اشتباه را هم کنترل کند.
مفاهیم مرتبط
[ویرایش]میزانهای خطای مرتبط
[ویرایش]پیش و پس از میزان کشف اشتباه، انواع و اقسام میزانها معرفی شدند که برخی از آنها در ادامه آمدهاست:
- میزان خطای مقایسه ای (PCER) به این صورت تعریف میشود که:. آزمودن هر فرض در سطح α میتواند تضمین کند که (این معیار بدون توجه به همزمانی آزمونها تعریف میشود)
- میزان خطای خانوادگی (FWER) تعریف میشود. روشهای بسیار زیادی هستند که این میزان را کنترل میکنند.
- میزان خطای خانوادگی تعمیم یافته () که توسط لهمان، رومانو و همکاران معرفی شد به این صورت تعریف میشود که:.
- میزان کشف اشتباه تعمیمیافته که تعریف میشود:[۱۴][۱۵].
- نسبت کشفهای اشتباه بین تمام کشفها است که توسط سوریک در سال ۱۹۸۹ معرفی شد، تعریف میشود:. این معیار ترکیبی از امید ریاضی و واقعیت است ولی مشکل کنترل را زمانی که دارد.
- توسط بنجامینی و هوشبرگ استفاده شده بود، بعدها توسط افرون(۲۰۰۸) استفاده شد؛ و اینگونه تعریف میشود که: . این میزان خطا نمیتواند بهطور دقیق کنترل شود زیرا زمانی که برابر یک است.
- ابتدا توس بنجامینی و هوشبرگ استفاده شد و بعدها در سال ۲۰۰۲ توسط استوری مورد استفاده قرار گرفت. این میزان اینگونه تعریف میشود: . این میزان خطا نمیتواند بهطور دقیق کنترل شود زیرا زمانی که m = m_0 برابر یک است.
- میزان ردشدن از حد اشتباه که تعریف میشود:[۱۶]
- : که به هر فرض i یکوزن نسبت میدهد که نشاندهنده اهمیت آن فرض است و اینگونه تعریف میشود: .
- میزان هزینهٔ کشف اشتباه :
- FDCR) که از کنترل فرایند آماری نشئت میگیرد، به هر فرض i یک هزینهٔ نسبت میگیرد و فرایند زمانی متوقف میشود که هزینه تا به اینجای کار میزان مشخصی باشد. این میزان اینگونه تعریف میشود:
- میزان خطای به ازای خانواده
- PFER: تعریف میشود: .
- میزان غیر کشف اشتباه (
- FNR: توسط سارکر و همکاران اینگونه تعریف شد:
- تعریف میشود:
- محلی تعریف میشود:
میزان پوشش اشتباه
[ویرایش]میزان پوشش خطا در واقع تعبیری از بازهٔ اطمینان است. میزان پوشش خطا متوسط میزان پوشش اشتباه را نشان میدهد. به عبارت دیگر پوششی که پارامترهای صحیح را نمیپوشاند. این میزان یک پوشش همزمان در سطح 1-\alpha را برای تمام پارامترهای تحت نظر مسئله بدست میدهد. بازههایی با احتمال پوشش ۱−q میتوانند میزان پوشش خطا را در سطح q نگه دارند. روشهای زیادی هم برای کنترل این میزان ایجاد شدهاند.[۱۷]
رویکردهای بیزی
[ویرایش]تا کنون برخی دانشمندان تلاش کردهاند به گونهای میزان کشف اشتباه را به روشهای بیزی مرتبط کنند،[۱۸][۱۹][۲۰] از آن برای انتخاب مدل استفاده کنند[۲۱][۲۲][۲۳][۲۴] و بازهٔ اطمینان را به میزان پوشش اشتباه مرتبط کنند.[۲۵]
میزان مثبت اشتباه در تک آزمونها
[ویرایش]کولهون در سال ۲۰۱۴[۲۶] از عبارت میزان کشف اشتباه برای تعریف احتمال اینکه یک نتیجهٔ معنیدار یک مثبت اشتباه یا (false positive) باشد، استفاده کرد. این نتیجهٔ حاصل یک تحقیق برای پاسخ به این سؤال بود که «چگونه باید پی-مقدار پیدا شده در یک آزمون بی جهت (unbiased) را تفسیر کرد؟». در کارهای بعدی[۲۷][۲۸] کولهون، آن مقدار را میزان مثبت اشتباه (false positive rate) به جای میزان کشف اشتباه خواند تا از ایجاد کژتابی با مفاهیم قبلی جلوگیری کند. روشهایی برای کنترل این میزان هم ایجاد شدهاست.
منابع
[ویرایش]- ↑ Ryan, T. P.; Woodall, W. H. (2005). "The most-cited statistical papers". Journal of Applied Statistics. 32 (5): 461. doi:10.1080/02664760500079373.
- ↑ Holm, S. (1979). "A simple sequentially rejective multiple test procedure". Scandinavian Journal of Statistics. 6 (2): 65–70. JSTOR 4615733. MR 0538597.
- ↑ Schweder, T.; Spjøtvoll, E. (1982). "Plots of P-values to evaluate many tests simultaneously". Biometrika. 69 (3): 493. doi:10.1093/biomet/69.3.493.
- ↑ Hochberg, Y.; Benjamini, Y. (1990). "More powerful procedures for multiple significance testing". Statistics in Medicine. 9 (7): 811–818. doi:10.1002/sim.4780090710. PMID 2218183.
- ↑ Soric, Branko (June 1989). "Statistical "Discoveries" and Effect-Size Estimation". Journal of the American Statistical Association. 84 (406): 608–610. doi:10.1080/01621459.1989.10478811. JSTOR 2289950.
- ↑ Simes, R. J. (1986). "An improved Bonferroni procedure for multiple tests of significance". Biometrika. 73 (3): 751–754. doi:10.1093/biomet/73.3.751.
- ↑ Hommel, G. (1988). "A stagewise rejective multiple test procedure based on a modified Bonferroni test". Biometrika. 75 (2): 383. doi:10.1093/biomet/75.2.383.
- ↑ Hochberg, Yosef (1988). "A Sharper Bonferroni Procedure for Multiple Tests of Significance" (PDF). Biometrika. 75 (4): 800–802. doi:10.1093/biomet/75.4.800.
- ↑ Storey, J. D.; Taylor, J. E.; Siegmund, D. (2004). "Strong control, conservative point estimation and simultaneous conservative consistency of false discovery rates: A unified approach". Journal of the Royal Statistical Society: Series B (Statistical Methodology). 66: 187. doi:10.1111/j.1467-9868.2004.00439.x.
- ↑ Benjamini, Y.; Krieger, A. M.; Yekutieli, D. (2006). "Adaptive linear step-up procedures that control the false discovery rate". Biometrika. 93 (3): 491. doi:10.1093/biomet/93.3.491.
- ↑ Gavrilov, Y.; Benjamini, Y.; Sarkar, S. K. (2009). "An adaptive step-down procedure with proven FDR control under independence". The Annals of Statistics. 37 (2): 619. doi:10.1214/07-AOS586.
- ↑ Blanchard, G.; Roquain, E. (2008). "Two simple sufficient conditions for FDR control". Electronic Journal of Statistics. 2: 963. doi:10.1214/08-EJS180.
- ↑ Benjamini, Yoav; Yekutieli, Daniel (2001). "The control of the false discovery rate in multiple testing under dependency" (PDF). Annals of Statistics. 29 (4): 1165–1188. doi:10.1214/aos/1013699998. MR 1869245.
- ↑ Sarkar, Sanat K. "Stepup procedures controlling generalized FWER and generalized FDR."
- ↑ Sarkar, Sanat K. , and Wenge Guo.
- ↑ Benjamini, Y. (2010). "Simultaneous and selective inference: Current successes and future challenges". Biometrical Journal. 52 (6): 708–721. doi:10.1002/bimj.200900299. PMID 21154895.
- ↑ Zhao, Z.; Gene Hwang, J. T. (2012). "Empirical Bayes false coverage rate controlling confidence intervals". Journal of the Royal Statistical Society: Series B (Statistical Methodology): no. doi:10.1111/j.1467-9868.2012.01033.x.
- ↑ Efron B (2008). "Microarrays, empirical Bayes and the two groups model". Statistical Science. 23: 1–22. doi:10.1214/07-STS236.
- ↑ Storey, John D. (2003). "The positive false discovery rate: A Bayesian interpretation and the q-value" (PDF). Annals of Statistics. 31 (6): 2013–2035. doi:10.1214/aos/1074290335.
- ↑ Efron, Bradley (2010). Large-Scale Inference. Cambridge University Press. ISBN 978-0-521-19249-1.
- ↑ Abramovich F, Benjamini Y, Donoho D, Johnstone IM; Benjamini; Donoho; Johnstone (2006). "Adapting to unknown sparsity by controlling the false discovery rate". Annals of Statistics. 34 (2): 584–653. arXiv:math/0505374. Bibcode:2005math......5374A. doi:10.1214/009053606000000074.
{{cite journal}}
: نگهداری یادکرد:نامهای متعدد:فهرست نویسندگان (link) - ↑ Donoho D, Jin J; Jin (2006). "Asymptotic minimaxity of false discovery rate thresholding for sparse exponential data". Annals of Statistics. 34 (6): 2980–3018. arXiv:math/0602311. Bibcode:2006math......2311D. doi:10.1214/009053606000000920.
- ↑ Benjamini Y, Gavrilov Y; Gavrilov (2009). "A simple forward selection procedure based on false discovery rate control". Annals of Applied Statistics. 3 (1): 179–198. arXiv:0905.2819. Bibcode:2009arXiv0905.2819B. doi:10.1214/08-AOAS194.
- ↑ Donoho D, Jin JS; Jin (2004). "Higher criticism for detecting sparse heterogeneous mixtures". Annals of Statistics. 32 (3): 962–994. arXiv:math/0410072. Bibcode:2004math.....10072D. doi:10.1214/009053604000000265.
- ↑ "False discovery rate controlling confidence intervals for selected parameters". Journal of the American Statistical Association. 100 (469): 71–80. 2005. doi:10.1198/016214504000001907.
- ↑ Colquhoun, David (2015). "An investigation of the false discovery rate and the misinterpretation of p-values". Royal Society Open Science. 1: 140216. doi:10.1098/rsos.140216.
- ↑ Colquhoun, David. "The problem with p-values". Aeon. Aeon Magazine. Retrieved 11 December 2016.
- ↑ Colquhoum, David. "The Reproducibility Of Research And The Misinterpretation Of P Values". bioRxiv. bioRxiv. Retrieved 5 June 2017.