الگوریتم ویتربی

الگوریتم ویتربی (به انگلیسی: Viterbi algorithm) الگوریتمی پویا برای پیدا کردن محتمل‌ترین مسیر از حالت‌های پنهان، با داشتن یک توالی از مشاهدات است.^[۱]^[۲]^[۳]^[۴]

این الگوریتم اغلب در مواردی بکار می‌رود که با داشتن یک مدل پنهان مارکف و توالی‌ای از مشاهدات، می‌خواهیم بدانیم چه توالی‌ای از حالت‌ها (مسیر) این مشاهدات را تولید کرده‌اند. به عبارت دیگر ما دنبال محتمل‌ترین مسیر به‌وجودآورندهٔ مشاهدات در یک مدل پنهان مارکف هستیم.

الگوریتم ویتربی از نام اندرو ویتربی گرفته شده است که در سال ۱۹۶۷ آن را به عنوان الگوریتمی رمزگشا برای کدهای کانولوشنال از طریق پیوندهای ارتباطی دیجیتالی نویزی ارائه کرد.^[۵]

پیدایش و کاربردها[ویرایش]

در بسیاری از کاربردهای مدل‌های پنهان مارکف، متغیرهای پنهان تفسیر معناداری دارند و در نتیجه یکی از مهم‌ترین مسائل در این حیطه، پیدا کردن محتمل‌ترین توالی از متغیرهای پنهان با داشتن یک توالی از مشاهدات است. به‌عنوان مثال، در حوزهٔ بازشناسی گفتار، می‌خواهیم یک توالی از واج‌ها با استفاده از توالی‌ای از آواها داشته باشیم.

این مسئله نباید با مسئلهٔ پیدا کردن محتمل‌ترین مجموعه از حالت‌های پنهان اشتباه گرفته شود. مسئلهٔ دوم می‌تواند با استفاده از الگوریتم پس‌رو-پیش‌رو حل شود. بدین صورت که ابتدا توزیع حاشیه‌ای برای هر متغیر نهان را به‌دست آورده و سپس جداگانه آن‌ها را بیشینه می‌کنیم.^[۶] اما در حالت کلی، مسئلهٔ پیدا کردن محتمل‌ترین توالی پراهمیت‌تر بوده و الگوریتم بهینهٔ ارائه‌شده برای آن، الگوریتم جمع-بیشینه که در حیطهٔ مدل‌های پنهان مارکف، به آن الگوریتم ویتربی گفته می‌شود استفاده کرد.^[۷]

در مسائل طبیعی مانند در، همیشه واقعیت منطبق بر محتمل‌ترین مسیر نیست. اما بسیاری اوقات محتمل‌ترین مسیر نیز اطلاعات خوبی در اختیار می‌گذارد.

مدل‌های پنهان مارکف برای جزایز سی‌پی‌جی[ویرایش]

در این بخش، به بررسی یکی از کاربردهای این مسئله در بیوانفورماتیک می‌پردازیم. مسئله جزایر سی‌پی‌جی (CpG islands) -پیدا کردن ناحیه‌ای از ژنوم که فرکانس بالایی از مکان‌های CG در آن وجود دارد- است. این مسئله را می‌توان با استفاده از دو مدل مخفی مارکف مدل کرد. کافی است حالت‌های مخفی را دو حالتِ $model_{+}$ و $model_{-}$ در نظر گیریم به‌طوری که زمانی که در ناحیهٔ سی‌جی‌پی قرار داریم یا زمانی که در این ناحیه قرار نداریم؛ و حالت‌هایمان نیز حروف A, C، G و T که در واقع نوکلئوتیدهای روی رشته‌اند در نظر گیریم. پس مجموعاً ۸ حالت مخفی که در شکل زیر نمایش داده شده‌اند را داریم.^[۸]

جستجوی کامل فضای مسئله[ویرایش]

می‌توانیم تمامی مسیرهای ممکن را که مشاهده ما را تولید می‌کنند را پیدا کنیم، سپس با محاسبه احتمال آنها، محتمل‌ترین مسیر را بدست آوریم. به عنوان نمونه در مسئله آب و هوا (می‌توانید در مثال‌هایی برای مدل پنهان مارکف ببینید) مشاهدی ما به صورت خشک، نم‌دار، مرطوب است. برای به‌دست آوردن محتمل‌ترین مسیر باید احتمال زیر بیشینه شود:

Pr(توالی مشاهده شده | انتخابی از حالت‌های مخفی)

برای جستجوی تمامی فضای جواب باید این احتمال را برای تمامی مسیرها بدست بیاوریم:

Pr(خشک، نم‌دار، مرطوب | آفتابی، آفتابی، آفتابی)، Pr(خشک، نم‌دار، مرطوب | آفتابی، آفتابی، ابری)، Pr(خشک، نم‌دار، مرطوب | آفتابی، آفتابی، بارانی)، . . Pr(خشک، نم‌دار، مرطوب | بارانی، بارانی، بارانی)

پیچیدگی زمانی این راه‌حل از اندازهٔ نمایی ( $O(a^{n})$ ) بوده و بهینه نیست. برای سرعت بخشیدن به الگوریتم می‌توان از تکنیک شاخه و حد استفاده کرد اما یک راه حل در زمان چندجمله‌ای برای این مسئله وجود دارد که الگوریتم ویتربی است.

الگوریتم ویتربی[ویرایش]

همان‌طور که در بخش قبل توضیح داده‌شد، تعداد حالت‌های ممکن برای متغیرهای پنهان یا معادلاً تعداد مسیرها نسبت به طول توالی از اندازهٔ نمایی است. شکل زیر، حالت‌های متغیرهای نهان یک مدل پنهان مارکف را به‌صورت یک شبکه نشان داده‌است که در آن، حالت‌های مختلف برای هر متغیر نهان با رنگ‌های متفاوت مشخص شده‌اند و متغیرهای نهان به‌صورت افقی از چپ به راست نمایش داده شده‌اند. با استفاده از الگوریتم ویتربی، می‌خواهیم محتمل‌ترین مسیر را در این شبکه بیابیم به‌طوری که هزینهٔ محاسباتی به‌صورت خطی با طول توالی افزایش یابد.

تعریف مسئله[ویرایش]

با توجه به توضیحات داده‌شده، می‌دانیم می‌توان مسئله را به‌صورت زیر بازنویسی کرد:

می‌خواهیم مسیر بهینه‌ای مانند $\pi ^{*}$ پیدا کنیم به‌گونه‌ای که داشته باشیم: $\pi ^{*}=argmax_{\pi }\mathbb {P} (x,\pi )$ . که در آن $x=(x_{1},\dots ,x_{L})$ یک توالی از مشاهدات و $\pi =(\pi _{1},\dots ,\pi _{L})$ یک توالی از متغیرهای پنهان باشد.

می‌دانیم برای محاسبهٔ احتمال بالا داریم: $\mathbb {P} (x,\pi )=p_{0,\pi _{1}}\Pi _{i=1}^{L}e_{\pi _{i}}(x_{i})p_{{\pi _{i}},{\pi _{i+1}}}$ . که در آن $p$ مقادیر احتمال‌های انتقال و $e$ احتمال انتشار را نشان می‌دهد. برای اطلاعات بیشتر به صفحهٔ مدل پنهان مارکف مراجعه کنید.

ایدهٔ الگوریتم^[۱۰][ویرایش]

اگر گره‌های گراف روبرو را با استفاده از دوتایی‌هایی که به‌ترتیب از شمارهٔ متغیر نهان و شمارهٔ حالت‌های ممکن برای آن‌ها تشکیل‌شده باشند، نمایش دهیم، می‌توان وزن بین دو گرهٔ $(k,i)$ و $(l,i+1)$ را برابر با مقدار $e_{l}(x_{i+1}).p_{kl}$ تعریف کرد. حال می‌توان احتمال $p_{k,i}$ برای یک مسیر مانند $\pi$ به‌طوری که با یال $p_{l,i+1}$ به گرهٔ $(k,i)$ ختم شود را به‌صورت زیر محاسبه کرد:

p_{l,i+1}=\Pi _{j=1}^{i+1}e_{\pi _{j}}(x_{j})p_{\pi _{j-1},{\pi _{j}}}={\big (}\Pi _{j=1}^{i}e_{\pi _{j}}(x_{j})p_{\pi _{j-1},{\pi _{j}}}{\big )}.e_{\pi _{i+1}}(x_{i+1})p_{\pi _{i},{\pi _{i+1}}}=p_{k,i}.e_{l}(xi+1)p_{kl}

حال کافی است متغیر $v_{k}(i)$ را به‌طوری تعریف کنیم که احتمال بهترین مسیر تا مکان $i$ باشد، به‌طوری که توالی مشاهدات به $x_{i}$ ختم شده‌باشد و متغیر نهان برابر با $k$ باشد؛ بنابراین طبق نتایج بالا داریم:

v_{l}(i+1)=\max _{k\in Q}\{v_{k}(i).p_{kl}.e_{l}(x_{i+1})\}=e_{l}(x_{i+1})\max _{k\in Q}\{v_{k}(i)p_{kl}\}

شبه‌کد الگوریتم^[۱۰][ویرایش]

ورودی:

مدل $M=(\Sigma ,Q,P,e)$ که:

\Sigma

: الفبای مشاهدات

Q: مجموعه حالات

P: ماتریس احتمال انتقال بین حالات

e: ماتریس احتمال تولید الفبا در هر حالت

و توالی $X=x_{1}x_{2}\dots x_{L}$

خروجی: محتمل‌ترین مسیر $\pi ^{*}$ به‌گونه‌ای که $\pi ^{*}=argmax_{k\in Q}(v_{k}(L)p_{k0})$

محاسبات آغازین: (i=۰) قرار بده $V_{0}(0)=1$ و برای تمام kهای بزرگتر از صفر قرار بده $V_{K}(0)=0$

برای i از ۱ تا L و تمامی lها عضو Q

قرار بده

v_{l}(i)=e_{l}(x_{i})\max _{k\in Q}(v_{k}(i-1)p_{kl})

قرار بده

ptr_{i}(l)=argmax_{k\in Q}(v_{k}(i-1)p_{kl})

خاتمه: $P(X,\pi ^{*})=\max _{k\in Q}(v_{k}(L)p_{k0})$

و محتمل‌ترین مسیر $\pi _{L}^{*}=argmax_{k\in Q}(v_{k}(L)p_{k0})$

بازگشت:

برای i از L تا ۱:

قرار بده

\pi _{i-1}^{*}=ptr_{i}(\pi _{i}^{*})

منابع[ویرایش]

↑ Xavier Anguera et al., "Speaker Diarization: A Review of Recent Research" بایگانی‌شده در ۱۲ مه ۲۰۱۶ توسط Wayback Machine, retrieved 19. August 2010, IEEE TASLP
↑ Daniel Jurafsky; James H. Martin (2014). Speech and Language Processing. Pearson Education International. p. 246.
↑ 29 Apr 2005, G. David Forney Jr: The Viterbi Algorithm: A Personal History
↑ Qi Wang; Lei Wei; Rodney A. Kennedy (2002). "Iterative Viterbi Decoding, Trellis Shaping, and Multilevel Structure for High-Rate Parity-Concatenated TCM". IEEE Transactions on Communications. 50: 48–55. doi:10.1109/26.975743.
↑ 29 Apr 2005, G. David Forney Jr: The Viterbi Algorithm: A Personal History
↑ Pattern Classification, Duda et al. , 2001.
↑ Forney, G.D. (1973). "The viterbi algorithm". Proceedings of the IEEE. 61 (3): 268–278. doi:10.1109/proc.1973.9030. ISSN 0018-9219.
↑ Durbin, Richard, Sean R. Eddy, Anders Krogh, and Graeme Mitchison. Biological sequence analysis: probabilistic models of proteins and nucleic acids. Cambridge university press, 1998.
↑ Bishop, Christopher M. Pattern recognition and machine learning. springer, 2006.
↑ ^۱۰٫۰ ^۱۰٫۱ Algorithms in Bioinformatics I, WS’06, ZBIT, C. Dieterich, February 6, 2007

[1] Xavier Anguera et al., "Speaker Diarization: A Review of Recent Research" بایگانی‌شده در ۱۲ مه ۲۰۱۶ توسط Wayback Machine, retrieved 19. August 2010, IEEE TASLP

[slp-2] Daniel Jurafsky; James H. Martin (2014). Speech and Language Processing. Pearson Education International. p. 246.

[3] 29 Apr 2005, G. David Forney Jr: The Viterbi Algorithm: A Personal History

[4] Qi Wang; Lei Wei; Rodney A. Kennedy (2002). "Iterative Viterbi Decoding, Trellis Shaping, and Multilevel Structure for High-Rate Parity-Concatenated TCM". IEEE Transactions on Communications. 50: 48–55. doi:10.1109/26.975743.

[5] 29 Apr 2005, G. David Forney Jr: The Viterbi Algorithm: A Personal History

[6] Pattern Classification, Duda et al. , 2001.

[7] Forney, G.D. (1973). "The viterbi algorithm". Proceedings of the IEEE. 61 (3): 268–278. doi:10.1109/proc.1973.9030. ISSN 0018-9219.

[8] Durbin, Richard, Sean R. Eddy, Anders Krogh, and Graeme Mitchison. Biological sequence analysis: probabilistic models of proteins and nucleic acids. Cambridge university press, 1998.

[9] Bishop, Christopher M. Pattern recognition and machine learning. springer, 2006.

[:0-10] ۱۰٫۰ ^۱۰٫۱ Algorithms in Bioinformatics I, WS’06, ZBIT, C. Dieterich, February 6, 2007

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

پیدایش و کاربردها[ویرایش]

مدل‌های پنهان مارکف برای جزایز سی‌پی‌جی[ویرایش]

جستجوی کامل فضای مسئله[ویرایش]

الگوریتم ویتربی[ویرایش]

تعریف مسئله[ویرایش]

ایدهٔ الگوریتم[۱۰][ویرایش]

شبه‌کد الگوریتم[۱۰][ویرایش]

منابع[ویرایش]

ایدهٔ الگوریتم^[۱۰][ویرایش]

شبه‌کد الگوریتم^[۱۰][ویرایش]