فرایند دیریکله سلسله مراتبی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

فرایند دیریکله سلسله مراتبی یا HDP در آمار و یادگیری ماشینی یک مدل در احتمالات بیزی و آمار ناپارامتری است که قابلیت های بسیاری در خوشه بندی داده ها دارد. [۱][۲] این مدل از فرایند دیریکله برای هر دسته از داده ها استفاده می کند که دارای یک توزیع پایه مشترک هستند که آن نیز به نوبه ی خود از یک فرایند دیریکله انتخاب شده است. این مدل این امکان را می دهد تا بعضی از شاخه دارای اشتراک هایی با هم داشته باشند.

مدل[ویرایش]

این مدل مخصوص داده هایی است که دارای گروه بندی هستند، مانند آنچه در مدل عناوین وجود دارد، یعنی داده هایی که دارای گروه های مختلف هستند. یعنی مجموعه ای از فایل های متنی که هر کدام تشکیل شده از کیفی از کلمات هستند. گروه ها با j=1,...J مشخص می شوند که هرگروه تشکیل شده از داده های x_{j1},...x_{jn} است.

در HDP توزیع پایه را با H نشان می دهیم که توزیع پیشین روی داده هاست و پارامتر تراکم که مقدار خوشه ها را کنترل می کند. گروه j -ام با G_j مشخص می شوند که توسط فرایند دیریکله بدست می آید: 
\begin{align}
G_j|G_0 &\sim \operatorname{DP}(\alpha_j,G_0)
\end{align}
که در آن \alpha_j پارامتر تراکمی مربوط به گروه مربوطه است و G_0 توزیع پایه مشترک بین تمام گروه هاست که خود یک فرایند دیریکله است 
\begin{align}
G_0 &\sim \operatorname{DP}(\alpha_0,H)
\end{align}
با پارامتر \alpha_0 و توزیع پایه H. به ازای هر داده x_{ji} یک متغیر پنهان \theta_{ji}: در نظر می گیریم.


\begin{align}
\theta_{ji}|G_j &\sim G_j \\
x_{ji}|\theta_{ji} &\sim F(\theta_{ji})
\end{align}

می دانیم که نمونه برداری از فرایند دیریکله در حقیقت مقادیری هستند که دارای مجموع یک هستند؛ لذا می توان G_0 را بصورت زیر نشان داد:


\begin{align}
G_0 &= \sum_{k=1}^\infty \pi_{0k}\delta_{\theta^*_k}
\end{align}
که تشکیل شده از بینهابت مقدار است و مجموع جرم های \pi_{0k} برابر با یک است. خود G_0 نیز به نوبه ی خود توزیع پایه برای فرایند دیریکله مربوط به خوشه هاست. یعنی هر G_j دارای توزیع پایه G_0 هستند که فرم زیر نوشته می شوند:


\begin{align}
G_j &= \sum_{k=1}^\infty \pi_{jk}\delta_{\theta^*_k}
\end{align}


\begin{align}
x_{ji}|G_j &\sim \sum_{k=1}^\infty \pi_{jk} F(\theta^*_k)
\end{align}

کاربرد ها[ویرایش]

این مدل در حقیقت یک نوع تعمیم غیرپارامتری از تخصیص پنهان دیریکله است[۱]. در این مدل در حقیقت، هر گروه، یک متن است و هر خوشه یک عنوان است، طوریکه هر متن در حقیقه مخلوطی از تعدادی عنوان است. این مدل همچنین جزئی اساسی در ساختار مدل مخفی مارکوف بینهایت است[۱] که در آن تعداد حالت های مخفی بی نهایت است و از روی داده های یادگرفته می شود(نسخه غیر-پارامتری مدل مخفی مارکوف)

تعمیم[ویرایش]

می توان HDP را در جهتب های مختلفی تعمیم داد. می توان فرایند دیریکله را با فرایند پیتمن-یور جایگزین کرد که فرایند پیتمن-پور سلسله مراتبی بدست خواهد آمد. سلسله مراتب در مدل می توان چندین مرتبه باشد.

منابع[ویرایش]