بوت‌استرپینگ (آمار)

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

در آمار، بوت استرپینگ (به انگلیسی: Bootstrapping)‏ یک متد کامپیوتری است برای نسبت دادن معیار دقت به تخمینهای دادهٔ نمونه (Efron وTibshirani 1994). دراین تکنیک تنها با یک روش خیلی ساده می‌توان تقریبا هر آماره‌ای از توزیع داده‌های نمونه را تخمین زد. به طور عمومی این روش از روشهای بازنمونه گیری به حساب می‌آید.

بوت استرپینگ در واقع تخمین ویژگی‌های (مثل واریانس)یک تخمین زننده‌است با استفاده از اندازه گیری همین ویژگیها در یک توزیع تقریبی از کل داده‌های نمونه. یک انتخاب استاندارد برای توزیع تقریبی، توزیع تجربی داده‌های مشاهده شده‌است. در حالتی که بتوان فرض کرد مجموعه‌ای از مشاهده‌ها از جمعیتی مستقل و به طور مساوی توزیع شده می‌باشد، بوت استرپینگ می‌تواند با ساخت تعدای بازنمونه پیاده سازی شود، که هرکدام از این بازنمونه‌های در واقع نمونه‌هایی رندم با جایگذاری از مجموعه داده‌های اصلی هستند.

همچنین از بوت استرپینگ می‌توان در ساخت آزمون فرض آماری استفاده کرد. از این روش معمولا به عنوان جایگزینی برای متدهای استنباطی بر پایه فرضهای پارامتری هنگامی که در مورد این فرضها شک داشته باشیم استفاده می‌شود. یا مواردی که استنباط پارامتری غیر ممکن باشد یا برای محاسبهٔ خطای استاندار فرمول محاسباتی پیچیده شود از بوت استرپینگ استفاده می‌کنیم.

محتویات

[ویرایش] فواید

یک فایده بزرگ بوت استرپینگ سادگی آن است. این روش برای تخمین خطای استاندارد و بازهٔ اطمینان برای تخمین زننده‌های پیچیدهٔ پارامترهای توزیع، مثل نقطه‌های صدکی (percentile points)، نسبتها، کسر برتری (odds ratio)و ضرایب همبستگی سر راست است. بعلاوه روش مناسبی برای کنترل و بررسی پایداری نتایج است.

[ویرایش] مضرات

به دلیل اینکه بوت استرپینگ تحت برخی شرایط به طور مجانبی ثابت است، تضمین نمونه-متناهی عمومی را فراهم نمی‌کند. بعلاوه، گرایش به این دارد که خیلی خوشبینانه عمل کند. ظاهر سادهٔ این روش ممکن است پیشفرضهای مهم برای آنالیز بوت استرپ (مثل فرض مستقل بودن نمونه‌ها) را پنهان کند در حالی که در روشهای دیگر این پیشفرضها به صورت رسم بیان می‌شوند.

[ویرایش] توصیف غیر رسمی

بوت استرپینگ این امکان را برای یک نفر فراهم می‌سازد که تعداد زیادی نسخهٔ جایگزین از یک آماره را که به طور معمول از یک نمونه محاسبه می‌شود را جمع آوری کند. به عنوان مثال، فرض کنید که ما علاقه مند به جمع آوری اطلاعات در مورد قد افراد در جهان هستیم. به دلیل اینکه نمی‌توانیم کل جمعیت را اندازه گیری کنیم، تنها یک از قسمت کوچک نمونه برداری می‌کنیم. از این نمونه فقط یک آماره قابل محاسبه‌است، مثلا یک میانگین یا یک انحراف معیار. در نتیجه نمی‌توانیم متوجه شویم که آماره‌ها چه قدر و در چه بازه‌ای تغییر می‌کنند. اما هنگامی که از بوت استرپ استفاده کنیم ما به صورت تصادفی یک نمونهٔ n تایی از N تا دادهٔ نمونه بر می‌داریم، به طوریکه هر نفر حد اکثر t بار می‌تواند انتخاب شود. با چندین بار انجام این کار در واقع تعداد زیادی مجموعهٔ داده می‌سازیم که برای هرکدام می‌توانیم یک آماره حساب کنیم. بنابراین به این روش یک تخمین از توزیع آماره به دست می‌آید. نکتهٔ مهم در این روش ساختن نسخه جایگزین از داده‌هایی است که ممکن است ما دیده باشیم.

[ویرایش] موارد کاربر روش بوت استرپینگ

آدر (Adèr) و همکارانش (در سال ۲۰۰۸) روش بوت استرپ را برای به کار گیری در موارد زیر توصیه کردند:

  • وقتی که توزیع یک آمارهٔ مورد نظر ناشناخته یا پیچیده‌است.
  • وقتی که اندازهٔ نمونه برای یک استنباط آماری سرراست ناکافی است.
  • وقتی که محاسبات توانی لازم است انجام شود، اما نمونهٔ پایلوت کوچکی در اختیار داریم.

[ویرایش] چه تعداد نمونه بوت استرپ کافی است؟

تعداد نمونه‌های توصیه شده برای این روش با افزایش توان محاسباتی کامپیوترها به تدریج افزایش یافته‌است. اگر نتایج واقعا مهم اند باید تا جایی که توان محاسباتی مامپیوتر و محدودیت زمان اجازه می‌دهد باید تعداد نمونه‌ها را زیاد کرد. افزایش تعداد نمونه‌ها باعث افزایش اطلاعات در داده‌های اصلی نمی‌شود بلکه فقط اثر خطای نمونه برداری تصادفی را کاهش می‌دهد.

[ویرایش] انواع طرح‌های بوت استرپ

در مسائل یک متغیری، معمولا قابل قبول است که بازنمونه گیری از مشاهده‌ها با جایگذاری باشد. در نمونه‌های کوچک ممکن است یک روش بوت استرپ پارامتری ترجیح داده شود. برای مسائل دیگر یک بوت استرپ نرم احتمالا ترجیح داده خواهد شد.

برای مسائل رگرسیون جایگزین‌های مختلفی موجودند.

[ویرایش] بازنمونه گیری

بوت استرپ به طور کلی برای تقریب توزیع آماره‌ها مفید است، بدون استفاده از روشهای معمول تئوری مثل تستهای آماری z-statistic, t-statistic. از بوت استرپ معمولا وقتی استفاده می‌شود که هیچ روش معمول و تحلیلی ای برای کمک به تخمین توزیع آماره‌های مورد نظر وجود ندارد. حداقل دو روش برای این نوع نمونه گیری وجود دارد:

  1. الگوریتم مونت کارلو که برای استفاده در اینجا بسیار ساده نیز هست. ابتدا با جایگذاری از داده‌ها بازنمونه گیری می‌کنیم، اندازهٔ بازنمونه باید برابر اندازهٔ مجموعه دادهٔ اصلی باشد. سپس آمارهٔ مورد نظر با استفاده از بازنمونه به دست آمده از مرحلهٔ اول محاسبه می‌شود و اینکار چندین بار تکرار می‌شود تا جواب دقیقتری به دست آید.
  2. روش دقیق نیز شبیه مونت کارلو است با این تفائت که در این روش تمام بازنمونه‌های ممکن از مجموعهٔ داده‌ها محاسبه می‌شوند. تعداد بازنمونه‌ها برابر می‌شود با \binom {2n-1}n که در آن n اندازه مجموعه داده‌های اولیه‌است.

[ویرایش] بوت استرپ نرم

در این حالت تعداد کمی از نویزهای تصادفی با مرکز صفر (معمولا دارای توزیع نرمال) به هر بازنمونه اضافه می‌شوند. این معادل نمونه برداری از یک تخمین kernel density از داده‌ها است.

[ویرایش] بوت استرپ پارامتری

در این حات یک مدل پارامتری به داده‌ها برازش می‌شود، معمولا با استفاده از درستنمایی ماکزیمم، و نمونه‌های اعداد تصادفی از این مدل برازش شده بیرون کشیده می‌شوند. معمولا نمونه‌های بیرون کشیده شده اندازه‌ای برابر با اندازه داده‌ها اصلی دارند. سپس کمیت یا تخمین آمارهٔ مورد نظر از این داده‌ها بدست می‌آید. و همانند دیگر روشهای بوت استرپ این کار چندین بار تکرار می‌شود. استفاده از بوت استرپ در این گونه موارد منجر به روشهایی می‌شود که متفائت اند با روشهای استنباط آماری پایه برای همین مدل.

[ویرایش] بازنمونه گیری باقیمانده‌ها

روش دیگر بوت استرپینگ در مسائل رگرسیون بازنمونه گیری از باقیمانده‌ها است. این روش به شکل زیر است:

  1. مدل را برازش کن و مقادیر \hat y_i و باقیمانده‌ها \hat{\epsilon}_i = y_i - \hat{y}_i, (i = 1,\dots, n).

را بازیابی کن.

  1. به ازای هر جفت, (xi, yi), که در آن xi متغیر توضیحی است، یک بازنمونه تصادفی باقیمانده اضافه کن،\hat{\epsilon}_j، به جواب متغیر yi. به بیان دیگر متغیرهای ساختگی جواب y^*_i = \hat{y}_i + \hat{\epsilon}_j را که در آن j متغیر تصادفی انتخاب شده از لیست (1, …, n) است به ازای هر i.
  2. مدل را مجددا برازش کن با استفاده از متغیرهای ساختگی y*i و بازیابی کمیتهای مورد نظر
  3. مراحل ۲و ۳ را به تعدادی که از نظر آماری معنی دار باشد تکرار کنید.

[ویرایش] بوت استرپ پروسه گوسی رگرسیون

وقتی مه داده‌ها یه صورت موقت با هم همبستگی دارند، بوت استرپ مستقیم همبستگی‌های ذاتی را از بین می‌برد. این متد از رگرسیون گوسی استفاده می‌کند تا یک مدل احتمالاتی را برازش کند. پروسه‌های گوسی متدهایی از بایزین هستند اما در اینجا استفاده می‌شوند تا یک روش پارامتریک بوت استرپ بسازند، که به سادگی به داده‌های مستقل از زمان اجازهٔ می‌دهد به حساب آورده شوند.

[ویرایش] بوت استرپ ریسکی (wild)

هر باقیمانده به صورت تصادفی در یک متغیر تصادفی با میانگین صفر و واریانس ۱ ضرب می‌شود. در این متد فرض بر این است که توزیع درست باقی مانده متقارن است و می‌توانند فوایدی برای نمونه گیری ساده روی نمونه‌های کوچک داشته باشد.[۱]

[ویرایش] بوت استرپ بلاک متحرک

در این روش n-b+1 بلاک دارای اشتراک و هرکدام به طول b به صورت روبه رو ساخته می‌شوند: مشاهده‌های ۱ تا b می‌شوند بلاک ۱، مشاهده‌های ۲ تا b+1 می‌شوند بلاک۲ و به همین ترتیب. سپس از این بلاکها n/b باک به صورت تصادفی همراه با جایگذاری انتخاب می‌شوند. سپس مرتب کردن این n/b بلاک به همان ترتیبی که برداشته شده‌اند مشاهده‌های بوت استرپ را می‌دهد. این نوع روش با داده‌های وابسته نیز کار می‌کند اگرچه مشاهده‌ها دیگر با ساختن، ایستا نخواهند بود. اما نشان داده شده‌است که متغیر بودن طول بلاک از این مشکل جلوگیری می‌کند.[۲]

[ویرایش] انتخاب آماره- گردان

در مواقعی که لازم است اطلاعات زیادی از منبع داده استخراج شود، اینکه چه تخمینی یا کدام آماره‌ای مورد نظر بوت استرپینگ است باید مورد توجه قرار گیرد. فرض کنید استنباط میانگین تعدادی مشاهده مورد نیاز است. در این صورت دو امکان موجود است:

  • تولید نمونه‌های بوت استرپ از میانگین نمونه‌ای برای ساخت فاصلهٔ اطمینانی برای میانگین
  • تولید نمونه‌های بوت استرپ از آمارهٔ جدید (میانگین تقسیم بر انحراف معیار نمونه)، ساخت یک فاصلهٔ اطمینان برای این، سپس فاصلهٔ اطمینان نهایی برای میانگین از ضرب کردن نقاط انتهایی از فاصلهٔ اطمینان اولیه در انحراف معیار نمونه‌ای از نمونهٔ اصلی به دست می‌آید.

تایج متفاوت خواهند بود و نتایج شبیه سازی نشان می‌دهند که روش دوم بهتر است. این روش به نوعی می‌تواند از روش پارامتریک استاندارد برای توزیع‌های نرمال منتج شود البته کمی عمومی تر. ایده این است که از یک کمیت محوری(pivotal quantity) استفاده شود، یا اینکه آماره‌ای که تقریبا محوری باشد پیدا شود. همچنین بد نیست که نگاهی بهAncillary statistic هم انداخته شود.

[ویرایش] نتیجه گیری فاصله‌های اطمینان از توزیع بوت استرپ

راه‌های زیادی برای استفاده از توزیع بوت استرپ در محاسبه فاصلهٔ اطمینان برای آماره‌های شبیه سازی شده وجود دارند و هیچ متدی وجود ندارد که برای تمام مسائل بهترین جواب را بدهد. انتخاب بین سادگی و عمومیت و هدف متدهای تنظیم شده مختلف است که می‌کوشند برای پوشش بیشتر.

[ویرایش] تاثیر اریبی و فقدان تقارن روی فاصله‌های اطمینان بوت استرپ

  • اریبی: وقتی که میانگین توزیع بوت استرپ را با آمارهٔ متناظر از توزیع اصلی مقایسه می‌کنیم، در واقع در حال بررسی کردن اریبی هستیم. تا زمانی که توزیع بوت استرپ اریب نباشد و شکلش متقارن باشد درصد فاصله اطمینان راه خوبی برای تخمین زدن است. اریبی در توزیع بوت استرپ منجر به اریبی در تخمین فاصله اطمینان می‌شود.
  • فقدان تقارن در توزیع بوت استرپ موجب به وجود آمدن مسئلهٔ دیگری نیز می‌شود و آن این است که چگونه باید عدم تقارن توزیع در فاصله اطمینان بازتاب داده شود؟

[ویرایش] متدهایی برای فاصله اطمینانهای بوت استرپ

این متدها شامل متدهای زیر می‌باشند:

  • بوت استرپ بر حسب درصد
  • بوت استرپ پایه ای
  • بوت استرپ استیودنت شده
  • بوت استرپ اریب-درست شده
  • بوت استرپ تسریع شده

[ویرایش] مثالهایی از کاربردها ی بوت استرپ

[ویرایش] کاربردهایی مربوط به تست Mediation

بوت استرپینگ یکی از مشهورترین متدهای آزمایش meidation است [۳]. زیرا نیاز به فرض نرمال بودن ندارد و بعلاوه از آن می‌توان در مواردی که اندازهٔ نمونه کوچک است استفاده کرد (N < 20).

[ویرایش] بوت استرپ نرم شده

بوت استرپینگ روشی است که معمولا برای تقریب فاصله اطمینان‌ها برای میانه استفاده می‌شود. اگرچه میانه یک آماره گسسته‌است، و این حقیقت خودش را در توزیع بوت استرپ نشان می‌دهد.

برای هموار کردن گسستگی میانه، ما می‌توانیم مقدار کمی از N(0, σ۲) نویز تصادفی را در هر نمونه بوت استرپ وارد کنیم. برای نمونه‌ای با اندازهٔ n انتخاب می‌کنیم \sigma = 1/\sqrt n. هیستوگرام‌های توزیع بوت استرپ و توزیع هموار شدهٔ بوت استرپ در زیر مشخص اند. توزیع بوت استرپ بسیار دندانه دار است زیرا میانه تنها مقادیر کمی را می‌تواند بپذیرد. اما توزیع بوت اترپ نرم شده بر این مشکل غلبه می‌کند.

MedianHists.png

اگرچه توزیع بوت استرپ میانه زشت و به صورت شهودی اشتباه به نظر می‌رسد، فاصله‌های اطمینانی که به دست می‌دهد در این مثال بد نیستند.

[ویرایش] رابطه با دیگر راههای استنباط

[ویرایش] رابطه با دیگر روشهای بازنمونه گیری

بوت استرپ متمایز شده‌است از:

  • پروسهٔ جک نایف (jackknife)، استفاده شده برای تخمین اریبی آماره‌های نمونه و برای تخمین واریانس.
  • وارسی اعتبار (cross-validation)، که در آن پارامترها (مثل وزنهای رگرسیون) در یک زیرنمونه تخمین زده می‌شوند و به زیرنمونه‌ها تسری داده می‌شوند.

برای اطلاعات بیشتر به Resampling مراجعه شود.

[ویرایش] یو-آماره‌ها (U-Statistics)

نوشتار اصلی: U-statistic

در مواردی که یک آمارهٔ مشخص تنها با استفاده از عددی کوچک می‌تواند طراحی شود تا یک مشخصهٔ مورد نیاز را اندازه بگیرد، r، از آبتم‌های داده، یک آمارهٔ متناظر بر اساس تمام نمونه می‌تواند فرمول بندی شود. اگر یک r-نمونه از اماره داده شده باشد، می‌توان یک n-نمونه از آماره را با روشی شبیه بوت استرپینگ ساخت(با گرفتن میانگین از آماره روی کل زیر نمونه‌ها با اندازهٔ r). این پروسه به عنوان پروسه‌ای با ویژگیهای خوب شناخته می‌شود و نتیجه یک U-statistic است. برای r=1 و r=۲، میانگین و واریانس نمونه از این نوع اند.

[ویرایش] مبدا این اصطلاح

استفاده از این نام در آمار توسط Bradley Efron در "Bootstrap methods: another look at the jackknife," Annals of Statistics, 7, (1979) 1-26. مراجعه شود بهNotes for Earliest Known Uses of Some of the Words of Mathematics: Bootstrap (John Aldrich) وEarliest Known Uses of Some of the Words of Mathematics (B) (Jeff Miller) for details.

[ویرایش] منابع

  1. Wu, C.F.J. (1986). Jackknife, bootstrap and other resampling methods in regression analysis (with discussions). Annals of Statistics, 14, 1261-1350
  2. Politis, D.N. and Romano, J.P. (1994). The stationary bootstrap. Journal of American Statistical Association, 89, 1303-1313.
  3. Preacher, K. J. , & Hayes, A. F. (2004). SPSS and SAS procedures for estimating indirect effects in simple mediation models. Behavior Research Methods, Instruments, and Computers, 36, 717–731 Macros for SAS and SPSS
  • مشارکت‌کنندگان ویکی‌پدیا، «Bootstrapping_(statistics)»، ویکی‌پدیای انگلیسی، دانشنامهٔ آزاد (بازیابی در ۲۵ می‌۲۰۱۱).