فرایند دیریکله سلسله‌مراتبی

از ویکی‌پدیا، دانشنامهٔ آزاد

فرایند دیریکله سلسله مراتبی یا HDP در آمار و یادگیری ماشینی یک مدل در احتمالات بیزی و آمار ناپارامتری است که قابلیت‌های بسیاری در خوشه بندی داده‌ها دارد.[۱][۲] این مدل از فرایند دیریکله برای هر دسته از داده‌ها استفاده می‌کند که دارای یک توزیع پایه مشترک هستند که آن نیز به نوبهٔ خود از یک فرایند دیریکله انتخاب شده‌است. این مدل این امکان را می‌دهد تا بعضی از شاخه دارای اشتراک‌هایی با هم داشته باشند.

مدل[ویرایش]

این مدل مخصوص داده‌هایی است که دارای گروه‌بندی هستند، مانند آنچه در مدل عناوین وجود دارد، یعنی داده‌هایی که دارای گروه‌های مختلف هستند. یعنی مجموعه‌ای از فایل‌های متنی که هر کدام تشکیل شده از کیفی از کلمات هستند. گروه‌ها با مشخص می‌شوند که هرگروه تشکیل شده از داده‌های است.

در HDP توزیع پایه را با نشان می‌دهیم که توزیع پیشین روی داده هاست و پارامتر تراکم که مقدار خوشه‌ها را کنترل می‌کند. گروه -ام با مشخص می‌شوند که توسط فرایند دیریکله بدست می‌آید: که در آن پارامتر تراکمی مربوط به گروه مربوط است و توزیع پایه مشترک بین تمام گروه هاست که خود یک فرایند دیریکله است با پارامتر و توزیع پایه . به ازای هر داده یک متغیر پنهان : در نظر می‌گیریم.

می‌دانیم که نمونه برداری از فرایند دیریکله در حقیقت مقادیری هستند که دارای مجموع یک هستند؛ لذا می‌توان را به صورت زیر نشان داد:

که تشکیل شده از بی‌نهایت مقدار است و مجموع جرم‌های برابر با یک است. خود نیز به نوبهٔ خود توزیع پایه برای فرایند دیریکله مربوط به خوشه هاست. یعنی هر دارای توزیع پایه هستند که فرم زیر نوشته می‌شوند:

کاربردها[ویرایش]

این مدل در حقیقت یک نوع تعمیم غیرپارامتری از تخصیص پنهان دیریکله است.[۱] در این مدل در حقیقت، هر گروه، یک متن است و هر خوشه یک عنوان است، طوری‌که هر متن در حقیقت مخلوطی از تعدادی عنوان است. این مدل همچنین جزئی اساسی در ساختار مدل مخفی مارکوف بینهایت است[۱] که در آن تعداد حالت‌های مخفی بی‌نهایت است و از روی داده‌های یادگرفته می‌شود (نسخه غیر-پارامتری مدل مخفی مارکوف)

تعمیم[ویرایش]

می‌توان HDP را در جهت‌های مختلفی تعمیم داد. می‌توان فرایند دیریکله را با فرایند پیتمن-یور جایگزین کرد که فرایند پیتمن-پور سلسله مراتبی بدست خواهد آمد. سلسله مراتب در مدل می‌توان چندین مرتبه باشد.

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ ۱٫۲ Teh، Y. W.؛ Jordan، M. I.؛ Beal، M. J.؛ Blei، D. M. (۲۰۰۶). «Hierarchical Dirichlet Processes» (PDF). Journal of the American Statistical Association. ۱۰۱: pp٫ ۱۵۶۶&ndash, ۱۵۸۱.
  2. Teh، Y. W.؛ Jordan، M. I. (۲۰۱۰). «Hierarchical Bayesian Nonparametric Models with Applications» (PDF). Bayesian Nonparametrics. انتشارات دانشگاه کمبریج.