توزیع دیریکله

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو
توزیع دریکله
پارامترها K>= 2 تعداد دسته ها (عددی صحیح)
\alpha_1, \ldots, \alpha_K concentration parameters, که در آن \alpha_i> 0
‫تکیه‌گاه x_1, \ldots, x_K که در آن x_i \in [0,1] و \sum x_i = 1
تابع چگالی احتمال \frac{1}{\mathrm{B}(\boldsymbol\alpha)} \prod_{i=1}^K x_i^{\alpha_i - 1}
که در آن \mathrm{B}(\boldsymbol\alpha) = \frac{\prod_{i=1}^K \Gamma(\alpha_i)}{\Gamma\bigl(\sum_{i=1}^K \alpha_i\bigr)}
که در آن \boldsymbol\alpha=(\alpha_1,\ldots,\alpha_K)
تابع توزیع تجمعی‫ (سی‌دی‌اف)
میانگین \operatorname{E}[X_i] = \frac{\alpha_i}{\sum_k \alpha_k}
 \operatorname{E}[\ln X_i] = \psi(\alpha_i)-\psi(\textstyle\sum_k \alpha_k)
(see digamma function)
میانه
مُد x_i = \frac{\alpha_i - 1}{\sum_{i=1}^K\alpha_i - K}, \quad \alpha_i> 1.
واریانس \mathrm{Var}[X_i] = \frac{\alpha_i (\alpha_0-\alpha_i)}{\alpha_0^2 (\alpha_0+1)},
که در آن \alpha_0 = \sum_{i=1}^k\alpha_i
\mathrm{Cov}[X_i,X_j] = \frac{- \alpha_i \alpha_j}{\alpha_0^2 (\alpha_0+1)}~~(i\neq j)
چولگی
کشیدگی
انتروپی see text
‫تابع مولد گشتاور (ام‌جی‌اف) {{{mgf}}}
تابع مشخصه {{{char}}}
چندین تصویر توزیع دریکله وقتی که K=3 برای بردارهای مختلف پارامتر α است. بصورت ساعتگرد از بالا چپ: α=(6, 2, 2), (3, 7, 5), (6, 2, 6), (2, 3, 4).

توزیع دیریکله در نظریه احتمال و آمار یک توزیع پیوسته است. این توزیع بطور کلی حالت گسترش یافته توزیع بتا برای توابع چندمتغیره است. معمولاً از توزیع دیریکله به عنوان توزیع پیشین در مدل سازی بیزی استفاده می شود؛ چرا که توزیع دیریکله مزدوج پیشین (conjugate prior) برای توزیع چندجمله ای و توزیع دسته ای (categotical) است. تعمیم این توزیع فرایند دیریکله است.

تعریف ریاضی[ویرایش]

تابع چگالی احتمال آن بصورت زیر است:

f(x_1,\dots, x_{K-1}; \alpha_1,\dots, \alpha_K) = \frac{1}{\mathrm{B}(\alpha)} \prod_{i=1}^K x_i^{\alpha_i - 1}

به ازای همه ی x1, ..., xK–1> 0 بطوریکه x1 + ... + xK–1 < 1, و xK = 1 – x1 – ... – xK–1. چگالی در خارج از این ناحیه صفر است. ثابت نرمالیزاسیون به صورت زیر تعریف می شود:

\mathrm{B}(\alpha) = \frac{\prod_{i=1}^K \Gamma(\alpha_i)}{\Gamma\bigl(\sum_{i=1}^K \alpha_i\bigr)},\qquad\alpha=(\alpha_1,\dots,\alpha_K).

حالت های خاص[ویرایش]

یک حالت خاص زمانی است که تمامی مقادیر \boldsymbol\alpha مقدار یکسانی داشته باشند، که در اینصورت آن را توزیع دیریکله ی متقارن می نامیم. در این حالت توزیع ساده می شود به:

f(x_1,\dots, x_{K-1}; \alpha) = \frac{\Gamma(\alpha K)}{\Gamma(\alpha)^K} \prod_{i=1}^K x_i^{\alpha - 1}.

زمانی که \alpha=1 توزیع معادل با توزیع یکنواخت روی یک تکیه‌گاه (ریاضی) سیمپلکس K-1 بعدی.

ویژگی ها[ویرایش]

گشتاورها[ویرایش]

فرض کنیم متغیرهای تصادفی X = (X_1, \ldots, X_K)\sim\operatorname{Dir}(\alpha) و  :X_K=1-X_1-\cdots-X_{K-1}. را در اختیار داریم. تعریف می کنیم \textstyle\alpha_0 = \sum_{i=1}^K\alpha_i. بنابرین [۱][۲]

 \mathrm{E}[X_i] = \frac{\alpha_i}{\alpha_0},
\mathrm{Var}[X_i] = \frac{\alpha_i (\alpha_0-\alpha_i)}{\alpha_0^2 (\alpha_0+1)}.

علاوه بر این اگر if  i\neq j

\mathrm{Cov}[X_i,X_j] = \frac{- \alpha_i \alpha_j}{\alpha_0^2 (\alpha_0+1)}.

مد[ویرایش]

مد توزیع برداری مانند (x1, ..., xK) است که در آن:

 x_i = \frac{\alpha_i - 1}{\alpha_0 - K}, \quad \alpha_i> 1.

توزیع حاشیه ای[ویرایش]

توزیع های حاشیه ای توزیع دیریکله، توزیع بتا هستند.

مزدوج برای توزیع چندجمله ای/دسته ای[ویرایش]

این به این معنی است که اگر در مدلسازی مجموعه ای از داده ها از توزیع چندجمله ای/دسته ای استفاده کنیم و توزیع پیشین را دیریکله قرار دهیم، توزیع پسین الزاماً یک توزیع دیریکله خواهد بود. به زبان ریاضی یعنی

\begin{array}{lclcl}
\boldsymbol\alpha &=& (\alpha_1, \ldots, \alpha_K) &=& \text{concentration hyperparameter} \\
\mathbf{p}\mid\boldsymbol\alpha &=& (p_1, \ldots, p_K) &\sim& \operatorname{Dir}(K, \boldsymbol\alpha) \\
\mathbb{X}\mid\mathbf{p} &=& (\mathbf{x}_1, \ldots, \mathbf{x}_N) &\sim& \operatorname{Cat}(K,\mathbf{p})
\end{array}

بنابرین روابط مقابل برقرار هستند:

\begin{array}{lclcl}
\mathbf{c} &=& (c_1, \ldots, c_K) &=& \text{number of occurrences of category }i \\
\mathbf{p} \mid \mathbb{X},\boldsymbol\alpha &\sim& \operatorname{Dir}(K,\mathbf{c}+\boldsymbol\alpha) &=& \operatorname{Dir}(K,c_1+\alpha_1,\ldots,c_K+\alpha_K)
\end{array}

ارتباط با توزیع دیریکله-چندجمله ای[ویرایش]

آنتروپی[ویرایش]

می دانیم

 \operatorname{E}[\log(X_i)] = \psi(\alpha_i)-\psi(\alpha_0)
و 
 \operatorname{Cov}[\log(X_i),\log(X_j)] = \psi'(\alpha_i) \delta_{ij} - \psi'(\alpha_0)

که در آن \psi تابع تابع دایگاما و \psi' تابع ترایگاما، \delta_{ij} دلتای کرونکر است.

 H(X) = \log \mathrm{B}(\alpha) + (\alpha_0-K)\psi(\alpha_0) - \sum_{j=1}^K (\alpha_j-1)\psi(\alpha_j)

ادغام پارامترها[ویرایش]

اگر X = (X_1, \ldots, X_K)\sim\operatorname{Dir}(\alpha_1,\ldots,\alpha_K) اگر متغیرهای تصادفی i-ام و j-م را با هم ادغام کنیم دیریکله ی حاصل برابر است با:

X' = (X_1, \ldots, X_i + X_j, \ldots, X_K)\sim\operatorname{Dir}(\alpha_1,\ldots,\alpha_i+\alpha_j,\ldots,\alpha_K).

منابع[ویرایش]

  1. http://www.cis.hut.fi/ahonkela/dippa/node95.html