تخصیص پنهان دیریکله

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

تخصیص پنهان دیریکله (به انگلیسی: Latent Dirichlet Allocation) یا LDA یک مدل تولیدی در آمار است. این مدل برای مدل سازی تعدادی متغیرهای پنهان (عناوین) در مجموعه‌ای از متن‌ها که شامل کلمات هستند بوجود آمده است. در حقیقت در یک متن شامل تعدادی کلمه می‌توان به هر کلمه تعدادی عنوان با احتمال مشخص نسبت داد که در نهایت با ترکیب با هم یک متن و عنوان آن را تشکیل می‌دهند.[۱]

عناوین در LDA[ویرایش]

در واقع می توان هر متن را به عنوان یک توزیع مخلوط از عناوین دید. این مشابه آنالیز پنهان مفهومی احتمالی با این تفاوت که در LDA یک توزیع احتمال پیشین از نوع توزیع دریکله در نظر گرفته می شود. اگرچه LDA با توزیع دریکله یکنواخت معادل با آنالیز پنهان مفهومی احتمالی است. [۲]

هر عنوان مجموعه ای از کلمات را با احتمال مشخصی ایجاد می کند. کلماتی که تعلق خاصی به برخی از عناوین ندارند (مانند the در انگلیسی) می توان آنها را با احتمال بکتواختی در هرکدام از عناوین قرار داد؛ یا اینکه آنها را دسته ی خاصی قرار داد. باید توجه کرد که تعریف صریحی برای عنوان از دیدگاه های معناشناسی یا معرفت‌شناسی مشخص نمی‌شود. بلکه اختصاص عناوین با یادگیری با نظارت برخی از کلمات و اختصاص آنها به عناوین و میزان رخدادهای آنها انجام می شود.

نکته ی دیگر این است که در این مدل چیزی برای مدل سازی ترتیب یا همبستگی عناوین در نظر گرفته نمی‌شود، و هر متن به عنوان کیسه کلمات در نظرگرفته شده و فرض تعویض پذیری (تئوری دی فینتی) انجام می شود.

مدل[ویرایش]

نمایش مدل LDA

در شکل مدل LDA نمایش داده شده است. M تعداد متن ها و N تعداد کلمات در هر متن است. پارامترهای مدل عبارتند از:

α پارامتر توزیع پیشین دیریکله برای عناوین به ازای هر متن است.
β پارامتر توزیع پیشین دیریکله برای توزیع کلمات به ازای هر عنوان است.
\theta_i توزیع عناوین برای متن i-ام است.
\phi_k توزیع کلمات برای عنوان k-ام است.
متغیر پنهان z_{ij} عنوان j-امین کلمه در i-امین متن است.
w_{ij} j-امین کلمه در i-امین متن است.
V تعداد واژه هاست.
\phi متریس K*V توزیع کلمات به ازای هر عنوان است.

تنها متغیرهای w_{ij} مشاهده شده بقیه متغیر پنهان پنهان هستند.

نمایش مدل Smoothed LDA

اکنون می توان کل داده ها را ایجاد شده از طریق مدل فرض شده بر اساس متغیرهای پنهان در نظر گرفت:

1. انتخاب توزیع دیریکله  \theta_i \, \sim \, \mathrm{Dir}(\alpha) به ازای  i \in \{ 1,\dots,M \} .

2. انتخاب توزیع  \phi_k \, \sim \, \mathrm{Dir}(\beta) به ازای  k \in \{ 1,\dots,K \} .

3. به ازای هر کلمه w_{ij}

1.1 انتخاب عنوان z_{i,j} \,\sim\, \mathrm{Multinomial}(\theta_i).
1.2 انتخاب کلمه ی w_{i,j} \,\sim\, \mathrm{Multinomial}( \phi_{z_{i,j}})

تعریف ریاضی[ویرایش]


\begin{array}{lcl}
\boldsymbol\phi_{k=1 \dots K} &\sim& \operatorname{Dirichlet}_V(\boldsymbol\beta) \\
\boldsymbol\theta_{d=1 \dots M} &\sim& \operatorname{Dirichlet}_K(\boldsymbol\alpha) \\
z_{d=1 \dots M,w=1 \dots N_d} &\sim& \operatorname{Categorical}_K(\boldsymbol\theta_d) \\
w_{d=1 \dots M,w=1 \dots N_d} &\sim& \operatorname{Categorical}_V(\boldsymbol\phi_{z_{dw}}) \\
\end{array}

منابع[ویرایش]

  1. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). "Latent Dirichlet allocation". In Lafferty, John. Journal of Machine Learning Research 3 (4–5): pp. 993–1022. doi:10.1162/jmlr.2003.3.4-5.993. 
  2. Girolami, Mark; Kaban, A. (2003). "On an Equivalence between PLSI and LDA". Proceedings of SIGIR 2003. New York: Association for Computing Machinery. ISBN 1-58113-646-3. 

جستارهای وابسته[ویرایش]

یادگیری تقریبی بیزی

توزیع دیریکله