برازش توزیع احتمال

از ویکی‌پدیا، دانشنامهٔ آزاد

برازش توزیع احتمال (به انگلیسی: Probability distribution fitting) یا به‌طور ساده برازش توزیع به معنی متناسب‌سازی توزیع احتمال به مجموعه‌ای از داده‌ها با توجه به اندازه‌گیری مکرر یک متغیر اصلی (حیاتی) است.

هدف از برازش توزیع پیش‌بینی احتمال یا پیش‌بینی فراوانی به وجود آمدن حجم عظیمی از یک متغیر در یک بازه مشخص است.

توزیع‌های احتمال زیادی وجود دارد (به فهرست توزیع‌های احتمال مراجعه کنید) که بعضی از آنها می‌توانند با فراوانی‌های مشاهده‌شده از داده‌های دیگران وابسته به متغیر اصلی و توزیع به صورت خیلی نزدیک برازش شود. توزیع متناسب نزدیک می‌تواند سبب پیش‌بینی‌های خوبی شود.

بنابراین، در برازش توزیع، باید توزیعی متناسب با داده‌ها انتخاب شود.

انتخاب توزیع[ویرایش]

اشکال مختلف توزیع نرمال متقارن بستگی به میانگین μ و واریانس σ 2 دارد

انتخاب توزیع مناسب به تقارن یا عدم تقارن مجموعه داده‌ها با توجه به مقدار میانگین بستگی دارد.

توزیع‌های متقارن

هنگامی که داده‌ها به‌طور متقارن در حدود میانگین توزیع می‌شوند، در حالی که فراوانی وقوع داده‌ها نسبت به میانگین کاهش می‌یابد، می‌توان به عنوان مثال توزیع نرمال، توزیع منطقی یا توزیع t استیودنت را انتخاب کرد. دو مورد اول بسیار شبیه به هم هستند، در حالی که مورد آخر، با یک درجه آزادی دارای «دم سنگین‌تر» است، به این معنی که مقادیر دورتر از میانگین نسبتاً بیشتر اتفاق می‌افتد (یعنی کشیدگی بالاتر است). توزیع کوشی نیز متقارن است.

چولگی توزیع‌ها به سمت راست

چولگی به چپ و راست

وقتی مقادیر بزرگ‌تر نسبت به مقادیر کوچک‌تر از میانگین فاصله داشته باشند، یک توزیع چولگی به سمت راست دارد (یعنی چولگی مثبت وجود دارد)، می‌توان به عنوان مثال توزیع لاگ-نرمال را انتخاب کرد (به عنوان مثال مقادیر لاگ از داده‌ها به طور معمول توزیع می‌شوندتوزیع log-logistic (یعنی مقادیر لاگ داده‌ها از توزیع منطقی پیروی می‌کنند)، توزیع گامبل، توزیع نمایی، توزیع پارتو، توزیع ویبول، توزیع بر یا توزیع فریشه. چهار توزیع آخر به سمت چپ محدود شده‌اند.

چولگی توزیع‌های به سمت چپ

وقتی مقادیر کوچک‌تر نسبت به مقادیر بزرگ‌تر از میانگین فاصله داشته باشند، یک توزیع چولگی به سمت چپ دارد (یعنی چولگی منفی وجود دارد)، ممکن است به عنوان مثال توزیع مربع نرمال (به عنوان مثال توزیع نرمال اعمال شده به ربع مقادیر داده)،[۱] توزیع گامبل معکوس (آینه‌ای)، توزیع داگوم (توزیع Burr آینه‌ای)، یا توزیع گمپرتز، که به سمت چپ محدود می‌شود.

منابع[ویرایش]

  1. Left (negatively) skewed frequency histograms can be fitted to square Normal or mirrored Gumbel probability functions. On line: