بوتاسترپینگ (آمار)
در آمار، بوت استرپینگ (به انگلیسی: Bootstrapping) یک متد کامپیوتری است برای نسبت دادن معیار دقت به تخمینهای دادهٔ نمونه (Efron وTibshirani 1994). دراین تکنیک تنها با یک روش خیلی ساده میتوان تقریبا هر آمارهای از توزیع دادههای نمونه را تخمین زد. به طور عمومی این روش از روشهای بازنمونه گیری به حساب میآید.
بوت استرپینگ در واقع تخمین ویژگیهای (مثل واریانس)یک تخمین زنندهاست با استفاده از اندازه گیری همین ویژگیها در یک توزیع تقریبی از کل دادههای نمونه. یک انتخاب استاندارد برای توزیع تقریبی، توزیع تجربی دادههای مشاهده شدهاست. در حالتی که بتوان فرض کرد مجموعهای از مشاهدهها از جمعیتی مستقل و به طور مساوی توزیع شده میباشد، بوت استرپینگ میتواند با ساخت تعدای بازنمونه پیاده سازی شود، که هرکدام از این بازنمونههای در واقع نمونههایی رندم با جایگذاری از مجموعه دادههای اصلی هستند.
همچنین از بوت استرپینگ میتوان در ساخت آزمون فرض آماری استفاده کرد. از این روش معمولا به عنوان جایگزینی برای متدهای استنباطی بر پایه فرضهای پارامتری هنگامی که در مورد این فرضها شک داشته باشیم استفاده میشود. یا مواردی که استنباط پارامتری غیر ممکن باشد یا برای محاسبهٔ خطای استاندار فرمول محاسباتی پیچیده شود از بوت استرپینگ استفاده میکنیم.
[ویرایش] فواید
یک فایده بزرگ بوت استرپینگ سادگی آن است. این روش برای تخمین خطای استاندارد و بازهٔ اطمینان برای تخمین زنندههای پیچیدهٔ پارامترهای توزیع، مثل نقطههای صدکی (percentile points)، نسبتها، کسر برتری (odds ratio)و ضرایب همبستگی سر راست است. بعلاوه روش مناسبی برای کنترل و بررسی پایداری نتایج است.
[ویرایش] مضرات
به دلیل اینکه بوت استرپینگ تحت برخی شرایط به طور مجانبی ثابت است، تضمین نمونه-متناهی عمومی را فراهم نمیکند. بعلاوه، گرایش به این دارد که خیلی خوشبینانه عمل کند. ظاهر سادهٔ این روش ممکن است پیشفرضهای مهم برای آنالیز بوت استرپ (مثل فرض مستقل بودن نمونهها) را پنهان کند در حالی که در روشهای دیگر این پیشفرضها به صورت رسم بیان میشوند.
[ویرایش] توصیف غیر رسمی
بوت استرپینگ این امکان را برای یک نفر فراهم میسازد که تعداد زیادی نسخهٔ جایگزین از یک آماره را که به طور معمول از یک نمونه محاسبه میشود را جمع آوری کند. به عنوان مثال، فرض کنید که ما علاقه مند به جمع آوری اطلاعات در مورد قد افراد در جهان هستیم. به دلیل اینکه نمیتوانیم کل جمعیت را اندازه گیری کنیم، تنها یک از قسمت کوچک نمونه برداری میکنیم. از این نمونه فقط یک آماره قابل محاسبهاست، مثلا یک میانگین یا یک انحراف معیار. در نتیجه نمیتوانیم متوجه شویم که آمارهها چه قدر و در چه بازهای تغییر میکنند. اما هنگامی که از بوت استرپ استفاده کنیم ما به صورت تصادفی یک نمونهٔ n تایی از N تا دادهٔ نمونه بر میداریم، به طوریکه هر نفر حد اکثر t بار میتواند انتخاب شود. با چندین بار انجام این کار در واقع تعداد زیادی مجموعهٔ داده میسازیم که برای هرکدام میتوانیم یک آماره حساب کنیم. بنابراین به این روش یک تخمین از توزیع آماره به دست میآید. نکتهٔ مهم در این روش ساختن نسخه جایگزین از دادههایی است که ممکن است ما دیده باشیم.
[ویرایش] موارد کاربر روش بوت استرپینگ
آدر (Adèr) و همکارانش (در سال ۲۰۰۸) روش بوت استرپ را برای به کار گیری در موارد زیر توصیه کردند:
- وقتی که توزیع یک آمارهٔ مورد نظر ناشناخته یا پیچیدهاست.
- وقتی که اندازهٔ نمونه برای یک استنباط آماری سرراست ناکافی است.
- وقتی که محاسبات توانی لازم است انجام شود، اما نمونهٔ پایلوت کوچکی در اختیار داریم.
[ویرایش] چه تعداد نمونه بوت استرپ کافی است؟
تعداد نمونههای توصیه شده برای این روش با افزایش توان محاسباتی کامپیوترها به تدریج افزایش یافتهاست. اگر نتایج واقعا مهم اند باید تا جایی که توان محاسباتی مامپیوتر و محدودیت زمان اجازه میدهد باید تعداد نمونهها را زیاد کرد. افزایش تعداد نمونهها باعث افزایش اطلاعات در دادههای اصلی نمیشود بلکه فقط اثر خطای نمونه برداری تصادفی را کاهش میدهد.
[ویرایش] انواع طرحهای بوت استرپ
در مسائل یک متغیری، معمولا قابل قبول است که بازنمونه گیری از مشاهدهها با جایگذاری باشد. در نمونههای کوچک ممکن است یک روش بوت استرپ پارامتری ترجیح داده شود. برای مسائل دیگر یک بوت استرپ نرم احتمالا ترجیح داده خواهد شد.
برای مسائل رگرسیون جایگزینهای مختلفی موجودند.
[ویرایش] بازنمونه گیری
بوت استرپ به طور کلی برای تقریب توزیع آمارهها مفید است، بدون استفاده از روشهای معمول تئوری مثل تستهای آماری z-statistic, t-statistic. از بوت استرپ معمولا وقتی استفاده میشود که هیچ روش معمول و تحلیلی ای برای کمک به تخمین توزیع آمارههای مورد نظر وجود ندارد. حداقل دو روش برای این نوع نمونه گیری وجود دارد:
- الگوریتم مونت کارلو که برای استفاده در اینجا بسیار ساده نیز هست. ابتدا با جایگذاری از دادهها بازنمونه گیری میکنیم، اندازهٔ بازنمونه باید برابر اندازهٔ مجموعه دادهٔ اصلی باشد. سپس آمارهٔ مورد نظر با استفاده از بازنمونه به دست آمده از مرحلهٔ اول محاسبه میشود و اینکار چندین بار تکرار میشود تا جواب دقیقتری به دست آید.
- روش دقیق نیز شبیه مونت کارلو است با این تفائت که در این روش تمام بازنمونههای ممکن از مجموعهٔ دادهها محاسبه میشوند. تعداد بازنمونهها برابر میشود با
که در آن n اندازه مجموعه دادههای اولیهاست.
[ویرایش] بوت استرپ نرم
در این حالت تعداد کمی از نویزهای تصادفی با مرکز صفر (معمولا دارای توزیع نرمال) به هر بازنمونه اضافه میشوند. این معادل نمونه برداری از یک تخمین kernel density از دادهها است.
[ویرایش] بوت استرپ پارامتری
در این حات یک مدل پارامتری به دادهها برازش میشود، معمولا با استفاده از درستنمایی ماکزیمم، و نمونههای اعداد تصادفی از این مدل برازش شده بیرون کشیده میشوند. معمولا نمونههای بیرون کشیده شده اندازهای برابر با اندازه دادهها اصلی دارند. سپس کمیت یا تخمین آمارهٔ مورد نظر از این دادهها بدست میآید. و همانند دیگر روشهای بوت استرپ این کار چندین بار تکرار میشود. استفاده از بوت استرپ در این گونه موارد منجر به روشهایی میشود که متفائت اند با روشهای استنباط آماری پایه برای همین مدل.
[ویرایش] بازنمونه گیری باقیماندهها
روش دیگر بوت استرپینگ در مسائل رگرسیون بازنمونه گیری از باقیماندهها است. این روش به شکل زیر است:
- مدل را برازش کن و مقادیر
و باقیماندهها
.
را بازیابی کن.
- به ازای هر جفت, (xi, yi), که در آن xi متغیر توضیحی است، یک بازنمونه تصادفی باقیمانده اضافه کن،
، به جواب متغیر yi. به بیان دیگر متغیرهای ساختگی جواب
را که در آن j متغیر تصادفی انتخاب شده از لیست (1, …, n) است به ازای هر i. - مدل را مجددا برازش کن با استفاده از متغیرهای ساختگی y*i و بازیابی کمیتهای مورد نظر
- مراحل ۲و ۳ را به تعدادی که از نظر آماری معنی دار باشد تکرار کنید.
[ویرایش] بوت استرپ پروسه گوسی رگرسیون
وقتی مه دادهها یه صورت موقت با هم همبستگی دارند، بوت استرپ مستقیم همبستگیهای ذاتی را از بین میبرد. این متد از رگرسیون گوسی استفاده میکند تا یک مدل احتمالاتی را برازش کند. پروسههای گوسی متدهایی از بایزین هستند اما در اینجا استفاده میشوند تا یک روش پارامتریک بوت استرپ بسازند، که به سادگی به دادههای مستقل از زمان اجازهٔ میدهد به حساب آورده شوند.
[ویرایش] بوت استرپ ریسکی (wild)
هر باقیمانده به صورت تصادفی در یک متغیر تصادفی با میانگین صفر و واریانس ۱ ضرب میشود. در این متد فرض بر این است که توزیع درست باقی مانده متقارن است و میتوانند فوایدی برای نمونه گیری ساده روی نمونههای کوچک داشته باشد.[۱]
[ویرایش] بوت استرپ بلاک متحرک
در این روش n-b+1 بلاک دارای اشتراک و هرکدام به طول b به صورت روبه رو ساخته میشوند: مشاهدههای ۱ تا b میشوند بلاک ۱، مشاهدههای ۲ تا b+1 میشوند بلاک۲ و به همین ترتیب. سپس از این بلاکها n/b باک به صورت تصادفی همراه با جایگذاری انتخاب میشوند. سپس مرتب کردن این n/b بلاک به همان ترتیبی که برداشته شدهاند مشاهدههای بوت استرپ را میدهد. این نوع روش با دادههای وابسته نیز کار میکند اگرچه مشاهدهها دیگر با ساختن، ایستا نخواهند بود. اما نشان داده شدهاست که متغیر بودن طول بلاک از این مشکل جلوگیری میکند.[۲]
[ویرایش] انتخاب آماره- گردان
در مواقعی که لازم است اطلاعات زیادی از منبع داده استخراج شود، اینکه چه تخمینی یا کدام آمارهای مورد نظر بوت استرپینگ است باید مورد توجه قرار گیرد. فرض کنید استنباط میانگین تعدادی مشاهده مورد نیاز است. در این صورت دو امکان موجود است:
- تولید نمونههای بوت استرپ از میانگین نمونهای برای ساخت فاصلهٔ اطمینانی برای میانگین
- تولید نمونههای بوت استرپ از آمارهٔ جدید (میانگین تقسیم بر انحراف معیار نمونه)، ساخت یک فاصلهٔ اطمینان برای این، سپس فاصلهٔ اطمینان نهایی برای میانگین از ضرب کردن نقاط انتهایی از فاصلهٔ اطمینان اولیه در انحراف معیار نمونهای از نمونهٔ اصلی به دست میآید.
تایج متفاوت خواهند بود و نتایج شبیه سازی نشان میدهند که روش دوم بهتر است. این روش به نوعی میتواند از روش پارامتریک استاندارد برای توزیعهای نرمال منتج شود البته کمی عمومی تر. ایده این است که از یک کمیت محوری(pivotal quantity) استفاده شود، یا اینکه آمارهای که تقریبا محوری باشد پیدا شود. همچنین بد نیست که نگاهی بهAncillary statistic هم انداخته شود.
[ویرایش] نتیجه گیری فاصلههای اطمینان از توزیع بوت استرپ
راههای زیادی برای استفاده از توزیع بوت استرپ در محاسبه فاصلهٔ اطمینان برای آمارههای شبیه سازی شده وجود دارند و هیچ متدی وجود ندارد که برای تمام مسائل بهترین جواب را بدهد. انتخاب بین سادگی و عمومیت و هدف متدهای تنظیم شده مختلف است که میکوشند برای پوشش بیشتر.
[ویرایش] تاثیر اریبی و فقدان تقارن روی فاصلههای اطمینان بوت استرپ
- اریبی: وقتی که میانگین توزیع بوت استرپ را با آمارهٔ متناظر از توزیع اصلی مقایسه میکنیم، در واقع در حال بررسی کردن اریبی هستیم. تا زمانی که توزیع بوت استرپ اریب نباشد و شکلش متقارن باشد درصد فاصله اطمینان راه خوبی برای تخمین زدن است. اریبی در توزیع بوت استرپ منجر به اریبی در تخمین فاصله اطمینان میشود.
- فقدان تقارن در توزیع بوت استرپ موجب به وجود آمدن مسئلهٔ دیگری نیز میشود و آن این است که چگونه باید عدم تقارن توزیع در فاصله اطمینان بازتاب داده شود؟
[ویرایش] متدهایی برای فاصله اطمینانهای بوت استرپ
این متدها شامل متدهای زیر میباشند:
- بوت استرپ بر حسب درصد
- بوت استرپ پایه ای
- بوت استرپ استیودنت شده
- بوت استرپ اریب-درست شده
- بوت استرپ تسریع شده
[ویرایش] مثالهایی از کاربردها ی بوت استرپ
[ویرایش] کاربردهایی مربوط به تست Mediation
بوت استرپینگ یکی از مشهورترین متدهای آزمایش meidation است [۳]. زیرا نیاز به فرض نرمال بودن ندارد و بعلاوه از آن میتوان در مواردی که اندازهٔ نمونه کوچک است استفاده کرد (N < 20).
[ویرایش] بوت استرپ نرم شده
بوت استرپینگ روشی است که معمولا برای تقریب فاصله اطمینانها برای میانه استفاده میشود. اگرچه میانه یک آماره گسستهاست، و این حقیقت خودش را در توزیع بوت استرپ نشان میدهد.
برای هموار کردن گسستگی میانه، ما میتوانیم مقدار کمی از N(0, σ۲) نویز تصادفی را در هر نمونه بوت استرپ وارد کنیم. برای نمونهای با اندازهٔ n انتخاب میکنیم
. هیستوگرامهای توزیع بوت استرپ و توزیع هموار شدهٔ بوت استرپ در زیر مشخص اند. توزیع بوت استرپ بسیار دندانه دار است زیرا میانه تنها مقادیر کمی را میتواند بپذیرد. اما توزیع بوت اترپ نرم شده بر این مشکل غلبه میکند.
اگرچه توزیع بوت استرپ میانه زشت و به صورت شهودی اشتباه به نظر میرسد، فاصلههای اطمینانی که به دست میدهد در این مثال بد نیستند.
[ویرایش] رابطه با دیگر راههای استنباط
[ویرایش] رابطه با دیگر روشهای بازنمونه گیری
بوت استرپ متمایز شدهاست از:
- پروسهٔ جک نایف (jackknife)، استفاده شده برای تخمین اریبی آمارههای نمونه و برای تخمین واریانس.
- وارسی اعتبار (cross-validation)، که در آن پارامترها (مثل وزنهای رگرسیون) در یک زیرنمونه تخمین زده میشوند و به زیرنمونهها تسری داده میشوند.
برای اطلاعات بیشتر به Resampling مراجعه شود.
[ویرایش] یو-آمارهها (U-Statistics)
در مواردی که یک آمارهٔ مشخص تنها با استفاده از عددی کوچک میتواند طراحی شود تا یک مشخصهٔ مورد نیاز را اندازه بگیرد، r، از آبتمهای داده، یک آمارهٔ متناظر بر اساس تمام نمونه میتواند فرمول بندی شود. اگر یک r-نمونه از اماره داده شده باشد، میتوان یک n-نمونه از آماره را با روشی شبیه بوت استرپینگ ساخت(با گرفتن میانگین از آماره روی کل زیر نمونهها با اندازهٔ r). این پروسه به عنوان پروسهای با ویژگیهای خوب شناخته میشود و نتیجه یک U-statistic است. برای r=1 و r=۲، میانگین و واریانس نمونه از این نوع اند.
[ویرایش] مبدا این اصطلاح
استفاده از این نام در آمار توسط Bradley Efron در "Bootstrap methods: another look at the jackknife," Annals of Statistics, 7, (1979) 1-26. مراجعه شود بهNotes for Earliest Known Uses of Some of the Words of Mathematics: Bootstrap (John Aldrich) وEarliest Known Uses of Some of the Words of Mathematics (B) (Jeff Miller) for details.
[ویرایش] منابع
- ↑ Wu, C.F.J. (1986). Jackknife, bootstrap and other resampling methods in regression analysis (with discussions). Annals of Statistics, 14, 1261-1350
- ↑ Politis, D.N. and Romano, J.P. (1994). The stationary bootstrap. Journal of American Statistical Association, 89, 1303-1313.
- ↑ Preacher, K. J. , & Hayes, A. F. (2004). SPSS and SAS procedures for estimating indirect effects in simple mediation models. Behavior Research Methods, Instruments, and Computers, 36, 717–731 Macros for SAS and SPSS
- مشارکتکنندگان ویکیپدیا، «Bootstrapping_(statistics)»، ویکیپدیای انگلیسی، دانشنامهٔ آزاد (بازیابی در ۲۵ می۲۰۱۱).
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
که در آن n اندازه مجموعه دادههای اولیهاست.
و باقیماندهها
.
، به جواب متغیر yi. به بیان دیگر متغیرهای ساختگی جواب
را که در آن j متغیر تصادفی انتخاب شده از لیست (1, …, n) است به ازای هر i.