توزیع دیریکله-چندجمله ای

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

توزیع دیریکله-چند جمله ای یک توزیع گسسته چند جمله ای است. این توزیع نام های دیگری نیز دارد؛ از جمله Dirichlet compound multinomial distribution (DCM) یا multivariate Pólya distribution(که پس از جورج پولیا نام‌گذاری شده است.) در این توزیع بردار p از یک توزیع دیریکله با پارامترهای \boldsymbol{\alpha} نمونه برداری شده است. مجموعه مقادیر گسسته از توزیع دسته‌ای با بردار احتمالات p بدست می آیند.

تابع جرم احتمال[ویرایش]

فرض کنیم N نمونه برداری تصادفی مستقل از یک توزیع دسته ای با K دسته انجام می دهیم. فرض کنیم مقادیر تصادفی را با z_n به ازای مقادیر n = 1 \dots N نشان دهیم. فرض بخواهیم تعداد دفعاتی که کلاس k (به ازای k = 1 \dots K )دیده شده است را با n_k نشان دهیم. می دانیم \sum_k n_k = N. به این مساله می توان به دو شیوه ی معادل نگاه کرد:

  1. مجموعه ای از N متغیر با توزیع دسته ای.
  2. بردار \mathbf{x}=(n_1,\dots,n_K) توزیع شده با توجه به توزیع چندجمله‌ای.

اکنون می توان روی این پارامتر این توزیع ها، یعنی p، توزیعی دیکله تجسم کرد و با انتگرال گیری نسبت به آن، توزیع پسین را بدست آورد. اگرچه دو دید فوق معادل هستند، اما با در نظر گرفتن هر کدام می توان توزیع پسین متفاوتی بدست آورد.

مجموعه ای از مشاهدات[ویرایش]

توزیع مشترک[ویرایش]

به ازای متغیر دسته ای \mathbb{Z}=z_1,\dots,z_N توزیع احتمال مشترک حاشیه ای عبارت است از:

\Pr(\mathbb{Z}\mid\boldsymbol{\alpha})=\int_{\mathbf{p}}\Pr(\mathbb{Z}\mid \mathbf{p})\Pr(\mathbf{p}\mid\boldsymbol{\alpha})\textrm{d}\mathbf{p}

که منجرو به فرمول زیر می شود:

\Pr(\mathbb{Z}\mid\boldsymbol{\alpha})=\frac{\Gamma\left(A\right)}
{\Gamma\left(N+A\right)}\prod_{k=1}^K\frac{\Gamma(n_{k}+\alpha_{k})}{\Gamma(\alpha_{k})}

که در آن \Gamma تابع گاما است.

A=\sum_k \alpha_k\text{ and }N=\sum_k n_k\text{, and where }n_k=\text{number of }z_n\text{'s with the value }k\text{.}

توزیع های مرتبط[ویرایش]

توزیع معادل یک بعدی این توزیع توزیع بتا-دو جمله ای نام دارد.

کاربردها[ویرایش]

جستارهای وابسته[ویرایش]

منابع[ویرایش]