نرخ کشف نادرست: تفاوت میان نسخهها
ایجاد شده توسط ترجمهٔ صفحهٔ «False discovery rate» برچسبها: استفادهٔ زیاد از تگ یا الگوی سرخط متن دارای ویکیمتن نامتناظر ترجمهٔ محتوا |
(بدون تفاوت)
|
نسخهٔ ۳ سپتامبر ۲۰۱۷، ساعت ۰۸:۵۹
نرخ کشف اشتباه (false discovery rate) یک روش برای بررسی نرخ خطای نوع اول در آزمون فرضهای همزمان است، که در آنها سطح معنیداری تفاوت آماره های مختلف در تعداد زیادی آزمون مشابه همزمان سنجیده میشود. نرخ کشف اشتباه در واقع یک معیار آزادانهتر نسبت به نرخ خطای خانوادگی(family-wise error rate) است و نشاندهندهی نسبت فرضهای واقعا صفری است که توسط آزمونها رد میشوند به تمام فرضهایی که توسط آزمون ها رد میشوند (منظور از کشف در اینجا فرض صفر رد شده است).
میتوان نشان داد که سرجمع،. کنترل این معیار نسبت به کنترل نرخ خطای خانوادگی توان آماری بالاتری بدست میدهد.
پیشینه
مقدمه
از دهه آخر قرن بیستم، محاسبات الکترونیکی به تنها ابزار برای پیشبرد تبدیل شد. تقریبا تمامی کاربردهای آمار توسط مجموعه ای از پلتفورمهای کامپیوتری اجرا میشدند. ابزارهایی مانند SAS، SPSS، Minitab، Matlab، S، و بعدها R. این روند از ابتدای قرن بیست و یکم سرعت گرفت و ابزارهای آماری بیشتر و کاراتر برای تحلیل حجم عظیم دادهها ابداع شد. این پیشرفت سریع در واقع مانند دو جنبه داشت، از طرفی ابداع روزافزون روشهای آماری که به دنبال مجموعه دادههای بزرگتر بودند و از طرفی تلاش برای نگه داشتن بنیانهای علمی آمار و تصحیح روشهای نوین.
برای بسیاری از آماردانها، میکروآرایهها برای اولین بار به عنوان نمونه ای از دادههای بزرگ-مقیاس مطرح شدند. تکنولوژی میکروآرایه که در واقع یک انقلاب در ابزارهای زیست-پزشکی نوین در اواخر قرن بیستم بود، بررسی قعالیت هزاران ژن را در یک آزمایش ممکن میساخت. با این امکان، نیاز به انجام هزاران آزمون فرض همزمان ایجاد شد. آزمونهایی که در نهایت بنا است تا تعداد محدودی از ژنها را به عنوان ژنهای تاثیر گذار (و با میزان بیان معنیدار-متفاوت در گروه تحت آزمون) معرفی کنند.
با رایج شدن تکنولوژیهای پرتوان، محدودیتهای فنی یا مالی محققین را مجبور میکرد که مجموعهدادههای با تعداد کم نمونه (برای مثال تعداد کم افراد تحت آزمایش) و برای هر نمونه تعداد زیادی متغیر (برای مثلا هزاران سطح بیان ژنی) جمع آوری کنند. در این مجموعهدادهها، با استفاده از روشهای کلاسیک تعداد بسیار کمی از متغیرهای اندازهگیریشده سطح معنی داری آماری بالایی نشان میدادند. این چالش در بسیاری از جوامع علمی نیاز به روشی جایگزین را برای معیار نرخ خطای خانوادگی و آزمونهای فرض همزمان تصحیح نشده ایجاد کرد. تا پیش از آن از این روشها به منظور تعیین و رتبهبندی متغیرهای تاثیرگذار در مقالات استفاده میشد، در حالی که نتایج به دست آمده از این روشها با واقعیت فاصله زیادی داشتند. برای حل این مسئله معیارهای مختلفی پیشنهاد شد که از برخی از آنها در مقالات هم استفاده میشد. این معیارها نسبت به نرخ خطای خانوادگی آزادانهتر عمل کردند.
مقالات
نرخ کشف اشتباه در سال ۱۹۹۵ توسط بنجامینی و هوشبرگ به عنوان یک روش آزادانهتر و مناسبتر در حل این مسئله معرفی شد. (BH روش) به عنوان یک کمتر محافظه کار و مسلما بیشتر روش مناسب برای شناسایی مهم چند از بی اهمیت بسیاری از اثرات آزمایش شده است. معرفی نرخ کشف اشتباه یک اتفاق بسیار مهم در این رشته بود، زیرا برای اولین بار به عنوان جایگزین مناسبی برای نرخ خطای خانوادگی به خصوص در علوم طبیعی مانند ژنتیک، بیوشیمی و علوم گیاهی شناخته شد. در سال ۲۰۰۵، مقالهٔ بنجامینی و هوشبرگ به عنوان یکی از ۲۵ پرارجاعترین مقالات در زمینهٔ شناختهشد. [۱]
پیش از معرفی نرخ کشف اشتباه در سال ۱۹۹۵ ایدههای متنوعی مد نظر آماردانان بود. در سال ۱۹۷۹، هولم رویهٔ هولم را پیشنهاد کرد،[۲] یک الگوریتم گام به گام برای کنترل کردن نرخ خطای خانوادگی که حداقل به اندازهٔ رویهٔ اصلاح بونفرونی دارای توان آماری بود. این الگوریتم گام به گام پی-مقدارها را مرتب میکند و به ترتیب فرضهای صفر را با شروع از کوچکترین پی-مقدار رد میکند.
بنجامینی در سال ۲۰۱۰ گفت نرخ کشف خطا و مقالهاش با هوشبرگ در سال ۱۹۹۵ از دو مقاله با موضوع آزمونهای همزمان منشأ گرفته است:
- اولین مقاله توسط شودر و اسپیوتول در سال ۱۹۸۲ [۳] که تصویرکردن پی-مقدارهای مرتبشده و سپس ارزیابی تعداد فرضهای صفر () درست از طرق برازش خط به صورت چشمی، با شروع از بزرگترین پی-مقدارها را پیشنهاد میکرد. این ایده بعدها به یک الگوریتم تعمیم پیدا کرد و به این صورت بود که تخمین به کمک روش هایی مانند بونفرونی، هولم یا هوشبرگ انجام میشد.[۴] این ایده بسیار شبیه تفسیر گرافیکی روش بنجامینی-هوشبرگ است.
- مقاله دوم کاری از سوریک در ۱۹۸۹ بود[۵] که کلمهٔ کشف را برای اولین بار در زمینهٔ آزمون فرضهای همزمان به کار برد. سوریک از امید ریاضی تعداد کشفهای اشتباه استفاده کرده بود و ایده اصلیاش این بود که «بسیاری از اکتشافات آمار ممکن است غلط باشند». این ایده بنجامینی و هوشبرگ را به سمت یک نرخ خطای مشابه هدایت کرد.
رویهٔ بنجامینی-هوشبرگ در مقاله آنها در سال ۱۹۹۵ ثابت شد. در سال ۱۹۸۶، سیمِس همان رویه را تحت عنوان رویهٔ سیمس پیشنهاد کرد. این رویه میتواند نرخ خطای خانوادگی را در حالت ضعیف، زمانی که آمارهها مستقل هستند، کنترل کند.[۶] در سال ۱۹۸۸، هومل نشان داد که روی سیمس نرخ خطای خانوادگی را در حالت قوی آن کنترل نمیکند.[۷] بر اساس رویهٔ سیمس، هوشبرگ رویهٔ هوشبرگ را در سال ۱۹۸۸ پیشنهاد کرد که میتوانست نرخ خطای خانوادگی را رد حالت قوی و زمانی که مفروضاتی برای وابستگی آماره ها وجود داشت، کنترل کند.[۸]
تعاریف
بر اساس تعاریف زیر میتوان Q را به عنوان نسبت از اکتشافات اشبتاه به تمام اکتشافات تعریف کرد:
- .
حال نرخ کشف اشتباه را میتوان اینگونه تعریف کرد:
که در آن زمانی که برابر ۰ میشود. میخواهیم نرخ کشف خطا را کمتر از یک حد q نگه داریم.
طبقه بندی آزمونهای فرض همزمان
روشهای کنترل
تنظیمات برای بسیاری از روشها به گونه است که ما فرض صفر تحت آزمون داریم که پی-مقدارهای مربوط به هر آزمون است. ما این پی-مقدارها را از کوچک به بزرگ مرتب میکنیم و ترتیب جدید را نامگذاری میکنیم. یک روش که از یک پی-مقدار کوچک به یک مقدار بزرگ میرود را روش بالا-گام مینامیم. روش پایین-گام هم به همین نحو تعریف میشود.
روش بنجامینی-هوشبرگ
روش بنجامینی-هوشبرگ (که یک روش بالا-گام است)، نرخ کشف اشتباه را در سطح نگه میدارد. این روش اینگونه عمل میکند:
- برای یک دادهشده، k را پیدا کن که
- تمام فرض صفرهای برای را رد کن.
به لحاظ هندسی، این روش معادل این است که را نسبت به K رسم کنیم، یک خط از مبدا با شیب بکشیم و تمام فرضهای صفر که بالای خط قرار میگیرند را رد کنیم.
روش بنجامینی-هوشبرگ زمانی که m آزمون مستقل و همچنین در بسیاری از سناریوهای شامل وابستگی معتبر است. به علاوه نامساوی زیر نیز ارضا میشود:
اگر تخمینی از در روش بنجامینی-هوشبرگ قرار داده شود، دیگر نمیتوان تضمین کرد که نرخ کشف اشتباه در سطح مورد نظر کنترل شود. ممکن است تصحیحهایی برای تخمینگر مورد نیاز باشد و برای این هم رویکردهای مختلفی پیشنهاد شدهاند.[۹][۱۰][۱۱][۱۲]
توجه داشته باشید که ميانگين برای این m آزمون برابر ،ميانگين(FDR ) و یا MFDR، است. به گونهای که برای m آزمون مستقل (و یا دارای همبستگی مثبت) تنظیم شدهاست. محاسبه MFDR که در اینجا نشانداده خواهد شد، تنها برای یک مقدار است و قسمتی از روش بنجامینی و هوشبرگ نیست. (AFDR را در پایین ببینید.)
روش بنجامینی-هوشبرگ-یکوتیلی
روش بنجامینی-هوشبرگ-یکوتیکلی نرخ کشف اشتباه را تحت فرض همبتسگی مثبت کنترل میکند.[۱۳] این تظریف آستانه را اصلاح میکند و بزرگترین k را اینگونه میابد که:
- اگر آزمونها از هم مستقبل یا همبستهٔ مثبت باشند قرار میدهیم:
در صورت وجود همبستگی منفی را میتوان با استفاده از ثابت اویل-ماسکرونی تخمین زد.
با استفاده از MFDR و فرمولهای بالا، یک MFDR تصحیح شده، یا AFDR، برای m آزمون مستقل برابر است با .
راه دیگر برای حل مسئله وابستی استفاده از روشهای بوت استرپ و تصادفیسازی است.خطای یادکرد: برچسب <ref>
غیرمجاز؛ یادکردهای بدون محتوا باید نام داشته باشند. ().
خطای یادکرد: برچسب <ref>
غیرمجاز؛ یادکردهای بدون محتوا باید نام داشته باشند. ().
خطای یادکرد: برچسب <ref>
غیرمجاز؛ یادکردهای بدون محتوا باید نام داشته باشند. ().
تخمین نرخ کشف اشتباه
فرض کنید نسبت تمام فرضهای صفر صحیح به تمام فرضها باشد و بنابرانی نسبت تمام فرضهای ناصفر درست خواهد بود. حال ضرب [نیازمند شفافسازی]
ویژگیها
تطبیقی و مقیاسپذیر
استفاده از روشی که از معیار نرخ کشف اشتباه استفاده میکند تطبیقی و مقیاسپذیر است. به این معنی که کنترل کردن نرخ کشف خطا میتواند بسیار آزادانه یا سختگیرانه عمل کند، بسته به تعداد فرضهای تحت آزمون و سطح معنی داری.
معیار نرخ کشف تطبیق پیدا میکند به گونهای که تعداد کشفهای اشتباه (V) نسبت به کل کشفها (R) سنجیدهمیشود. این مورد برعکس نرخ خطای خانوادگی است. برای مثال اگر ۱۰۰ فرض برای ۱۰۰ جهش ژنتیکی نقطهای برای یافتن رابطه با رخنمود مدنظر باشد:
- اگر ما ۴ کشف (R) انجام دهیم، داشتن دو کشف غلط (V) بسیار هزینهبر است. در حالیکه:
- اگر ۵۰ اکتشاف انجام دهیم و ۲ تا از آنها غلط باشند هزینهٔ ما چندان زیاد نیست.
معیار نرخ کشف اشتباه مقیاسپذیر است به گونهای که نسبت کشفهای اشتباه به کل کشفها (Q)، برای مقادیر مختلف کل کشفها (R)، معقول باقی میماند.
برای مثال:
- اگر ما ۱۰۰ کشف انجام دهیم و ۵ تا از آنها کشف غلط باشند () ما هزینهٔ زیادی را پرداخت نخواهیم کرد.
- به طور مشابه، اگر ما ۱۰۰۰ کشف را انجام دهیم، و ۵۰ کشف اشتباه رخ دهد، همچنان هزینهٔ ما همان ۵ درصد خطا است.
معیار نرخ کشف خطا در حالتی که یک تصحیح را روی محموعهای از فرضها انجام میدهد، یا دو تصحیح را زمانی انجام میدهد که مجموعه به دو بخش تقسیم شدهاست تفاوتی ندارد، به نحوی که در هر دو حالت نحوه عملکرد تصحیح یکسان است.
وابستگی آمارههای آزمون
کنترل نرخ کشف اشتباه با استفاده از روش بنجامینی-هوشبرگ گام-بالا خطی در سطح q، ویژگیهای مختلفی مرتبط با ساختار واستگی بین آمارههای آزمون m فرض صفر دارد. در هر یک از شرایط زیر برای آمارههای آزمون داریم:
- مستقل:
- مستقل و پیوسته:
- مثبت وابسته:
- در حالت کلی: که در آن ثابت اویلر–ماسکرونی است.
نسبت فرضهای درست
اگر تمام فرضهای صفر درست باشند ()، کنترل نرخ کشف اشتباه در سطح q کنترل روی نرخ خطای خانوادگی را تضمین میکند (به این اتفاده «کنترل ضعیف نرخ خطای خانوادگی هم میگویند): فقط به خاطر اینکه رد کردن حداقل یکی از فرضهای صفر درست دقیقا معادل دقیقاً معادل , ). اما چنانچه تعدادی کشف درست صورت گیرد () خواهیم داشت FWER ≥ FDR. در این حالت جا برای بالابردن توان تشخصی وجود خواهد داشت. این همچنین به این معنا است که هر روشی که نرخ خطای خانوادگی را کنترل کند، میتواند نرخ کشف اشتباه را هم کنترل کند.
مفاهیم مرتبط
نرخهای خطای مرتبط
پیش و پس از نرخ کشف اشتباه، انواع و اقسام نرخها معرفی شدند که برخی از آنها در ادامه آمده است:
- نرخ خطای مقایسه ای (PCER) به این صورت تعریف میشود که:. آزمودن هر فرض در سطح α میتواند تضمین کند که (این معیار بدون توجه به همزمانی آزمونها تعریف میشود.)
- نرخ خطای خانوادگی (FWER) تغریف میشود. روشهای بسیار زیادی هستند که این نرخ را کنترل میکنند.
- نرخ خطای خانوادگی تعمیم یافته () که توسط لهمن، رومانو و همکاران معرفی شد به این صورت تعریف میشود که:.
- نرخ کشف اشتاه تعمیمیافته که تعریف میشود:[۱۴][۱۵].
- نسبت کشفهای اشتباه بین تمام کشفها است که توسط سوریک در سال ۱۹۸۹ معرفی شد، تعریف میشود:. این معیار ترکیبی از امید ریاضی و واقعیت است ولی مشکل کنترل را زمانی که دارد.
- توسط بنجامینی و هوشبرگ استفاده شده بود، بعدها توسط افرون(۲۰۰۸) استفاده شد. و اینگونه تعریف میشود که: . این نرخ خطا نمیتواند به طور دقیق کنترل شود زیرا زمانی که برابر یک است.
- ابتدا توس بنجامینی و هوشبرگ استفاده شدو بعد ها در سال ۲۰۰۲ توسط استوری مورد استفاده قرار گرفت. این نرخ اینگونه تعریف میشود: . این نرخ خطا نمیتواند به طور دقیق کنترل شود زیرا زمانی که m = m_0 برابر یک است.
- نرخ ردشدن از حد اشتباه که تعریف میشود:[۱۶]
- ) که به هر فرض i یک وزن نسبت میدهد که نشاندهنده اهمیت آن فرض است و اینگونه تعریف میشود: .
- نرخ هزینهٔ کشف اشتباه (
- FDCR) که از کنترل فرآیند آماری نشئت میگیرد، به هر فرض i یک هزینهٔ نسبت میگیرد و فرایند زمانی متوقف میشود که هزینه تا به اینجای کار میزان مشخصی باشد. این نرخ اینگونه تعریف میشود:
- نرخ خطای به ازای خانواده
- PFER) تعریف میشود: .
- نرخ غیر کشف اشتباه (
- FNR) توسط سارکر و همکاران اینگونه تعریف شد:
- تعریف میشود:
- محلی تعریف میشود:
نرخ پوشش اشتباه
نرخ پوشش خطا در واقع تعبیری از بازهٔ اطمینان است. نرخ پوشش خطا متوسط نرخ پوشش اشتباه را نشان میدهد. به عبارت دیگر پوششی که پارمترهای صحیح را نمیپوشاند. این نرخ یک پوشش همزمان در سطح 1-\alpha را برای تمام پارامترهای تحت نظر مسئله بدست میدهد. بازههایی با احتمال پوشش 1−q میتوانند نرخ پوشش خطا را در سطح q نگه دارند. روشهای زیادی هم برای کنترل این نرخ ایجاد شدهاند.[۱۷]
رویکردهای بیزی
تا کنون برخی دانشمندان تلاش کردهاند به گونهای نرخ کشف اشتباه را به روشهای بیزی مرتبط کنند،[۱۸][۱۹][۲۰] از آن برای انتخاب مدل استفاده کنند[۲۱][۲۲][۲۳][۲۴] و بازهٔ اطمینان را به نرخ پوشش اشتباه مرتبط کنند.[۲۵]
نرخ مثبت اشبتاه در تک آزمونها
کولهون در سال ۲۰۱۴ [۲۶] از عبارت نرخ کشف اشتباه برای تعریف احتمال اینکه یک نتیجهٔ معنیدار یک مثبت اشتباه یا (false positive) باشد، استفاده کرد. این نتیجهٔ حاصل یک یک تحقیق برای پاسخ به این سوال بود که «چگونه باید پی-مقدار پیدا شده در یک آزمون بی جهت (unbiased) را تفسیر کرد؟». در کارهای بعدی [۲۷][۲۸] کولهون آن مقدار را نرخ مثبت اشتباه (false positive rate) به جای نرخ کشف اشتباه خواند تا از ایجاد کژتابی با مفاهیم قبلی جلوگیری کند. روشهایی برای کنترل این نرخ هم ایجاد شد.
منابع
- ↑ Ryan, T. P.; Woodall, W. H. (2005). "The most-cited statistical papers". Journal of Applied Statistics. 32 (5): 461. doi:10.1080/02664760500079373.
- ↑ Holm, S. (1979). "A simple sequentially rejective multiple test procedure". Scandinavian Journal of Statistics. 6 (2): 65–70. JSTOR 4615733. MR 0538597.
- ↑ Schweder, T.; Spjøtvoll, E. (1982). "Plots of P-values to evaluate many tests simultaneously". Biometrika. 69 (3): 493. doi:10.1093/biomet/69.3.493.
- ↑ Hochberg, Y.; Benjamini, Y. (1990). "More powerful procedures for multiple significance testing". Statistics in Medicine. 9 (7): 811–818. doi:10.1002/sim.4780090710. PMID 2218183.
- ↑ Soric, Branko (June 1989). "Statistical "Discoveries" and Effect-Size Estimation". Journal of the American Statistical Association. 84 (406): 608–610. doi:10.1080/01621459.1989.10478811. JSTOR 2289950.
- ↑ Simes, R. J. (1986). "An improved Bonferroni procedure for multiple tests of significance". Biometrika. 73 (3): 751–754. doi:10.1093/biomet/73.3.751.
- ↑ Hommel, G. (1988). "A stagewise rejective multiple test procedure based on a modified Bonferroni test". Biometrika. 75 (2): 383. doi:10.1093/biomet/75.2.383.
- ↑ Hochberg, Yosef (1988). "A Sharper Bonferroni Procedure for Multiple Tests of Significance" (PDF). Biometrika. 75 (4): 800–802. doi:10.1093/biomet/75.4.800.
- ↑ Storey, J. D.; Taylor, J. E.; Siegmund, D. (2004). "Strong control, conservative point estimation and simultaneous conservative consistency of false discovery rates: A unified approach". Journal of the Royal Statistical Society: Series B (Statistical Methodology). 66: 187. doi:10.1111/j.1467-9868.2004.00439.x.
- ↑ Benjamini, Y.; Krieger, A. M.; Yekutieli, D. (2006). "Adaptive linear step-up procedures that control the false discovery rate". Biometrika. 93 (3): 491. doi:10.1093/biomet/93.3.491.
- ↑ Gavrilov, Y.; Benjamini, Y.; Sarkar, S. K. (2009). "An adaptive step-down procedure with proven FDR control under independence". The Annals of Statistics. 37 (2): 619. doi:10.1214/07-AOS586.
- ↑ Blanchard, G.; Roquain, E. (2008). "Two simple sufficient conditions for FDR control". Electronic Journal of Statistics. 2: 963. doi:10.1214/08-EJS180.
- ↑ Benjamini, Yoav; Yekutieli, Daniel (2001). "The control of the false discovery rate in multiple testing under dependency" (PDF). Annals of Statistics. 29 (4): 1165–1188. doi:10.1214/aos/1013699998. MR 1869245.
- ↑ Sarkar, Sanat K. "Stepup procedures controlling generalized FWER and generalized FDR."
- ↑ Sarkar, Sanat K., and Wenge Guo.
- ↑ Benjamini, Y. (2010). "Simultaneous and selective inference: Current successes and future challenges". Biometrical Journal. 52 (6): 708–721. doi:10.1002/bimj.200900299. PMID 21154895.
- ↑ Zhao, Z.; Gene Hwang, J. T. (2012). "Empirical Bayes false coverage rate controlling confidence intervals". Journal of the Royal Statistical Society: Series B (Statistical Methodology): no. doi:10.1111/j.1467-9868.2012.01033.x.
- ↑ Efron B (2008). "Microarrays, empirical Bayes and the two groups model". Statistical Science. 23: 1–22. doi:10.1214/07-STS236.
- ↑ Storey, John D. (2003). "The positive false discovery rate: A Bayesian interpretation and the q-value" (PDF). Annals of Statistics. 31 (6): 2013–2035. doi:10.1214/aos/1074290335.
- ↑ Efron, Bradley (2010). Large-Scale Inference. Cambridge University Press. ISBN 978-0-521-19249-1.
- ↑ Abramovich F, Benjamini Y, Donoho D, Johnstone IM; Benjamini; Donoho; Johnstone (2006). "Adapting to unknown sparsity by controlling the false discovery rate". Annals of Statistics. 34 (2): 584–653. arXiv:math/0505374. Bibcode:2005math......5374A. doi:10.1214/009053606000000074.
{{cite journal}}
: نگهداری یادکرد:نامهای متعدد:فهرست نویسندگان (link) - ↑ Donoho D, Jin J; Jin (2006). "Asymptotic minimaxity of false discovery rate thresholding for sparse exponential data". Annals of Statistics. 34 (6): 2980–3018. arXiv:math/0602311. Bibcode:2006math......2311D. doi:10.1214/009053606000000920.
- ↑ Benjamini Y, Gavrilov Y; Gavrilov (2009). "A simple forward selection procedure based on false discovery rate control". Annals of Applied Statistics. 3 (1): 179–198. arXiv:0905.2819. Bibcode:2009arXiv0905.2819B. doi:10.1214/08-AOAS194.
- ↑ Donoho D, Jin JS; Jin (2004). "Higher criticism for detecting sparse heterogeneous mixtures". Annals of Statistics. 32 (3): 962–994. arXiv:math/0410072. Bibcode:2004math.....10072D. doi:10.1214/009053604000000265.
- ↑ "False discovery rate controlling confidence intervals for selected parameters". Journal of the American Statistical Association. 100 (469): 71–80. 2005. doi:10.1198/016214504000001907.
- ↑ Colquhoun, David (2015). "An investigation of the false discovery rate and the misinterpretation of p-values". Royal Society Open Science. 1: 140216. doi:10.1098/rsos.140216.
- ↑ Colquhoun, David. "The problem with p-values". Aeon. Aeon Magazine. Retrieved 11 December 2016.
- ↑ Colquhoum, David. "The Reproducibility Of Research And The Misinterpretation Of P Values". bioRxiv. bioRxiv. Retrieved 5 June 2017.