الگوریتم نیدلمن-وانچ

رده	هم‌ترازسازی توالی
کارایی بدترین حالت
پیچیدگی فضایی

الگوریتم نیدلمن وانچ (به انگلیسی: Needleman–Wunsch algorithm) یک همترازی سراسری بر دو ترتیب متوالی (مانند A و B) انجام می‌دهد. معمولاً در بیوانفورماتیک برای همترازی توالی‌های پروتئینی یا نوکلئوتیدی کاربرد دارد. این الگوریتم در سال ۱۹۷۰ توسط سول نیدلمن و کریستین وانچ ارائه شد.^[۱]

این الگوریتم نمونه‌ای از برنامه‌ریزی پویا است و اولین کاربرد برنامه‌ریزی پویا در مقایسهٔ توالی‌های زیستی است.

شکل 1:هم تراز سازی دو رشته به وسیله الگوریتم نیدلمن وانچ

مقدمه[ویرایش]

این الگوریتم را می توان برای هرجفت رشته ای به کار برد. در راهنمای زیر از دو توالی دی ان ای کوتاه به عنوان مثال استفاده می شود:

 GCATGCT 
 GATTACA

ساخت جدول[ویرایش]

ابتدا جدولی مانند زیر بسازید:

T	C	G	T	A	C	G

							G
							A
							T
							T
							A
							C
							A

در سطر اول، جدول رشته اول قرار می گیرد و محل شروع این رشته ستون سوم است. هم چنین رشته دوم در ستون اول قرار گرفته و محل شروع آن از سطر سوم است.

در ابتدا هیچ عددی در جدول وجود ندارد.

انتخاب سیستم امتیاز دهی[ویرایش]

هنگام هم تراز سازی دو رشته، ممکن است سه حالت برای حروف رخ دهد:

تطابق: دو حرف موجود در جایگاه کنونی باهم یکسان باشند.

عدم تطابق: دو حرف موجود در جایگاه کنونی با یکدیگر متفاوت باشند.

درج یا حذف: یک حرف از یک رشته با یک جای خالی(فاصله) از رشته دیگر هم تراز شود.

به هر یک از این حالات یک امتیاز اختصاص داده می شود و امتیاز یک هم تراز سازی از جمع امتیاز های هر جفت از حروف متناظر به دست می آید.

سیستم های متفاوتی برای امتیاز دهی وجود دارند که تعدادی از آن ها در بخش سیستم های امتیاز دهی ذکر شده اند.

سیستم استفاده شده در اینجا، همان سیستم الگوریتم نیدلمن-وانچ است که در آن امتیاز تطابق 1+ و امتیاز عدم تطابق، درج یا حذف 1- می باشد.^[۱] به طور مثال امتیاز هم ترازی زیر برابر 2- است زیرا:

 GCATG-CT
 GATT-ACA

 ‎+1-1-1+1-1-1+1-1=3-5=-2

پر کردن جدول[ویرایش]

از ستون دوم سطر دوم شروع کنید و در آن مقدار 0 را قرار دهید. سپس سطر به سطر پیش روید و امتیاز هر خانه را محاسبه کنید. این امتیاز از اضافه کردن امتیاز خانه مجاور سمت چپ، بالا یا بالا چپ (به صورت قطری) به امتیاز مناسب برای تطابق، عدم تطابق یا درج-حذف به دست می آید.

در واقع برای محاسبه امتیاز 3 گزینه وجود دارد:

مسیری که از خانه سمت چپ یا بالا می آید، باعث ایجاد یک درج و حذف می شود پس باید امتیاز خانه چپ یا بالا را با امتیاز درج-حذف جمع کرد.

مسیر قطری باعث ایجاد یک تطابق یا عدم تطابق می شود پس اگر حروف متناظر این سطر و ستون با یکدیگر برابر بودند، باید امتیاز خانه بالا چپ را با امتیاز تطابق و در غیر این صورت با امتیاز عدم تطابق جمع کرد.

در نهایت امتیاز نهایی این خانه با بیشترین امتیاز در میان سه امتیاز به دست آمده برابر است.

با توجه به اینکه خانه های سطر دوم دارای خانه بالا یا بالا-چپ نیستند، پس تنها خانه سمت چپ می تواند برای محاسبه امتیاز استفاده شود. به این ترتیب سطر دوم به ترتیب از چپ دارای امتیاز های 0، 1-، 2-، 3-،...،7- می شود.

استدلالی مشابه برای ستون دوم نیز به کار می رود که در نتیجه آن جدولی به شکل زیر حاصل می شود.

T	C	G	T	A	C	G
7-	6-	5-	3-	3-	2-	1-	0
							1-	G
							2-	A
							3-	T
							4-	T
							5-	A
							6-	C
							7-	A

حال برای محاسبه امتیاز خانه سطر سوم و ستون سوم، 3 حالت وجود دارد:

همسایه قطری این خانه دارای امتیاز 0 بوده و با توجه به اینکه دو حرف متناظر این سطر و ستون(G وG) با یکدیگر تطابق دارند، پس باید این عدد را با امتیاز تطابق یعنی 1 جمع کرد. پس امتیاز به دست آمده در این حالت برابر 1 است.
همسایه بالایی این خانه دارای امتیاز 1- است و با توجه به اینکه مسیر عمودی نشان دهنده یک فاصله است پس باید این عدد را با 1- جمع کرد. بنا بر این امتیاز این حالت برابر 2- می شود.
همسایه چپ این خانه نیز دارای امتیاز 1- است و با توجه به اینکه مسیر افقی نشان دهنده یک فاصله است پس باید این عدد را با 1- جمع کرد. بنا بر این امتیاز این حالت نیز برابر 2- می شود.

در نهایت بیشترین امتیاز در میان این 3 یعنی عدد 1 وارد این خانه می شود. هم چنین باید پیکان مربوط را ذخیره کرد که یک پیکان قطری از خانه(3,3) به خانه (2,2) است.

G
1-	0
1	1-	G

به همین ترتیب تمامی خانه های جدول پر می شوند تا امتیاز نهایی بهترین هم ترازی به دست آید. کامل شده این جدول در شکل 1 آمده است و طبق آن امتیاز بهترین هم ترازی این دو رشته برابر با 0 است.

بازگشت به مبداء[ویرایش]

به وسیله تعدادی پیکان مسیری را از گوشه پایین-راست جدول به گوشه بالا-چپ جدول نشان دار کنید. سپس از طریق این مسیر و طبق قوانین زیر توالی متناظر مسیر را بسازید:

هر پیکان قطری نشان دهنده یک تطابق یا عدم تطابق است پس 2 حرف متناظر سطر و ستون خانه مبدا پیکان با یک دیگر تراز می شوند.

هر پیکان عمودی یا افقی نشان دهنده یک درج-حذف است.

پیکان افقی یک جای خالی("-") را با حرف ستون متناظر مبدا پیکان و پیکان عمودی حرف سطر متناظر مبدا پیکان را با یک جای خالی تراز می کند.

وجود چندین پیکان برای انتخاب، نشان از چند شاخه شدن هم ترازی ها دارد. اگر دو یا تعداد بیشتری از شاخه ها مسیری از گوشه پایین-راست به بالا-چپ باشند، همگی هم ترازی هایی برای دو توالی هستند.

با توجه به قواعد بالا و طبق شکل 1، یکی از بهترین هم ترازی ها برای دو رشته ذکر شده در زیر آمده است:

 GCA-TGCT
 G-ATTACA

سیستم های امتیاز دهی[ویرایش]

سیستم پایه[ویرایش]

ساده ترین سیستم امتیاز دهی به هر یک از سه حالت تطابق، عدم تطابق و درج-حذف یک مقدار نسبت می دهد. به عنوان مثال ممکن است امتیاز تطابق برابر 1 و امتیاز عدم تطابق یا درج-حذف 1- در نظر گرفته شود. که در این حالت بیشترین امتیاز مربوط به کمترین فاصله ویرایش است.

به عنوان مثالی دیگر ممکن است به تطابق امتیاز 0 و به عدم تطابق و درج-حذف امتیاز 1- نسبت داده شود. که در این حالت امتیاز یک هم ترازی در واقع فاصله ویرایش میان دو رشته است.

سیستم های امتیاز دهی متفاوت برای شرایط مختلف طراحی شده اند. به عنوان مثال اگر وجود فاصله را اتفاق بدی در هم ترازی در نظر بگیریم، میتوانیم از امتیاز بندی مانند مثال زیر استفاده کنیم:

امتیاز تطابق =1+

امتیاز عدم تطابق=1-

امتیاز فاصله=7-

ماتریس مشابهت[ویرایش]

سیستم های امتیاز دهی پیچیده تر، نه تنها برای نوع جایگزینی بلکه برای حروف مختلف نیز امتیاز های متفاوتی در نظر میگیرند. به عنوان مثال، ممکن است به تطابق بین 2 حرف A امتیاز 1 و به تطابق بین 2 حرف G امتیاز 3 داده شود. که این به معناست که تطابق G ها از اهمیت بیشتری برای هم تراز سازی برخوردار است. از این روش امتیاز دهی برای عدم تطابق نیز می توان بهره گرفت. به عنوان مثال ممکن است به دو حرف A,G امتیاز 1- و به دو حرف T,G امتیاز 2- اختصاص داده شود.

برای نمایش همه حالات ممکن امتیاز دهی از ماتریس مشابهت استفاده می شود.

ماتریس زیر نمونه ای از ماتریس های مشابهت برای مثال بالاست:

G	A	T	C
1-	1-	1-	1	C
2-	1-	1	1-	T
1-	1	1-	1-	A
3	1-	2-	1-	G

به عنوان مثال، ماتریس زیر، ماتریس مشابهت امتیاز گذاری مورد استفاده در شکل 1 است:

G	A	T	C
1-	1-	1-	1	C
1-	1-	1	1-	T
1-	1	1-	1-	A
1	1-	1-	1-	G

با توجه به اینکه امتیاز عدم تطابق دو حرف مثلا A و T با امتیاز عدم تطابق T و A برابر است، ماتریس مشابهت ماتریسی متقارن است.

ماتریس های امتیاز دهی مختلف برای دادن وزن های متفاوت و مناسب شرایط به حالات مختلفی که ممکن است رخ دهند، ساخته می شوند. این ماتریس های وزن دار به ویژه در هم تراز سازی توالی های پروتئینی کاربرد دارند زیرا فراوانی آمینو اسید های مختلف با یکدیگر متفاوت است.

بلوسام(BLOSUM) و PAM دو نمونه پر کاربرد از این ماتریس های وزن دار هستند.

جریمه پرش[ویرایش]

هنگام هم ترازی توالی ها معمولا درج-حذف به وجود می آید که گاهی تعداد زیادی از آن ها پشت سر هم قرار میگیرند. از نظر زیستی، یک فاصله بزرگ با احتمال بیشتری از یک حذف بزرگ ناشی می شود تا از چندین حذف کوچک. در نتیجه امتیاز 2 درج-حذف کوچک باید بدتر از یک درج-حذف بزرگ باشد. راه ساده و معمول این امتیاز دهی این است که برای شروع یک فاصله که در واقع یک درج-حذف جدید است یک جریمه بالا و برای گسترش فاصله که در واقع گسترش درج-حذف هاست جریمه پایین تری در نظر بگیریم.

برای مثال، برای درج-حذف جدید می توان امتیاز 6- و برای گسترش آن امتیاز 1- را در نظر گرفت. مثلا هم ترازی زیر

 CTTTTTTG
 C-T-T--G

که پیش ازاین دارای چندین هم ترازی معادل بود، اکنون به شکل زیر هم تراز می شود:

 CTTTTTTG
 CTT----G

زیرا فاصله به طول 4 بر چندین فاصله با طول کمتر ارجحیت دارد.

یک ارائهٔ جدید[ویرایش]

امتیازها برای کارکترهای همتراز شده توسط ماتریس تطابق مشخص می‌شود. در اینجا $S(a,b)$ تطابقی برای کارکترهای a و b به‌شمار می‌رود که از یک جریمه پرش خطی، که اینجا d نامیده می‌شود.
برای نمونه، اگر ماتریس تطابق این باشد:

	A	G	C	T
A	۱۰	-۱	-۳	-۴
G	-۱	۷	-۵	-۳
C	-۳	-۵	۹	۰
T	-۴	-۳	۰	۸

همترازی آن:

AGACTAGTTAC
CGA‒‒‒GACGT

با جریمه پرش ۵-، امتیاز زیر را خواهد داشت:

$S(A,C)+S(G,G)+S(A,A)+(3\times d)+S(G,G)+S(T,A)+S(T,C)+S(A,G)+S(C,T)$

$=-3+7+10-(3\times 5)+7+-4+0+-1+0=1$

در طی پردازش الگوریتم، $F_{ij}$ به عنوان امتیاز بهینه برای همترازی اولین $i=0,...,n$ کارکتر در A و اولین $j=0,...,n$ کارکتر در B، در نظر گرفته می‌شود. اصل بهینه سازی به صورت زیر آورده شده‌است.

Basis:
   $F_{0j}=d*j$ 
   $F_{i0}=d*i$ 
  Recursion, based on the principle of optimality:
   $F_{ij}=\max(F_{i-1,j-1}+S(A_{i},B_{j}),\;F_{i,j-1}+d,\;F_{i-1,j}+d)$

کد زیر برای محاسبه ماتریس F به کار می‌رود:

for i=0 to length(A)
    F(i,0) ← d*i
  for j=0 to length(B)
    F(0,j) ← d*j
  for i=1 to length(A)
    for j=1 to length(B)
    {
      Match ← F(i-1,j-1) + S(A_i, B_j)
      Delete ← F(i-1, j) + d
      Insert ← F(i, j-1) + d
      F(i,j) ← max(Match, Insert, Delete)
   }

زمانی که ماتریس F محاسبه شد، مقدار درایه $F_{nm}$ ، بیشترین امتیاز در بین همترازی‌ها را به ما می‌دهد. برای محاسبهٔ یک همترازی که دقیقاً این امتیاز را دهد، باید از خانهٔ پایین-راست جدول شروع کنید و مقدار آن را با سه منبع ممکن(تطبیق، درج و حذف) مقایسه کنید تا بفهمید هر یک از کدام منبع به دست آمده‌است. اگر از طریق تطابق به دست آمده بود، $A_{i}$ و $B_{j}$ با هم همترازند. اگر از طریق حذف به دست آمده‌است، $A_{i}$ با یک پرش همتراز شده‌است و اگر از طریق درج به دست آمده بود $B_{j}$ نیز با یک پرش همتراز شده‌است.(عموماً برای یک مقدار، بیش از یک انتخاب داریم که همه آن‌ها می‌توانند ما را به سمت همترازی بهینه هدایت کنند)

  AlignmentA ← ""
  AlignmentB ← ""
  i ← length(A)
  j ← length(B)
  while (i> 0 and j> ۰)
  {
    Score ← F(i,j)
    ScoreDiag ← F(i - 1, j - 1)
    ScoreUp ← F(i, j - 1)
    ScoreLeft ← F(i - 1, j)
    if (Score == ScoreDiag + S(A_i, B_j))
    {
      AlignmentA ← A_i + AlignmentA
      AlignmentB ← B_j + AlignmentB
      i ← i - 1
      j ← j - 1
   }
    else if (Score == ScoreLeft + d)
    {
      AlignmentA ← A_i + AlignmentA
      AlignmentB ← «-» + AlignmentB
      i ← i - 1
   }
    otherwise (Score == ScoreUp + d)
    {
      AlignmentA ← «-» + AlignmentA
      AlignmentB ← B_j + AlignmentB
      j ← j - 1
   }
 }
  while (i> ۰)
  {
    AlignmentA ← A_i + AlignmentA
    AlignmentB ← «-» + AlignmentB
    i ← i - 1
 }
  while (j> ۰)
  {
    AlignmentA ← «-» + AlignmentA
    AlignmentB ← B_j + AlignmentB
    j ← j - 1
 }

پیچیدگی[ویرایش]

محاسبه امتیاز هر خانه از جدول دارای پیچیدگی $O(1)$ است. در نتیجه پیچیدگی زمانی الگوریتم برای دو توالی به طول $m$ و $n$ ، $O(mn)$ است.^[۲] ثابت شده است که با استفاده از Method of Four russians می توان زمان اجرا را به $O(mn/\log n)$ بهبود بخشید.^[۲]^[۳]

با توجه به اینکه الگوریتم جدولی $m\times n$ را پر می کند، پیچیدگی حافظه آن $O(mn)$ می باشد.^[۲]

یادداشت‌های تاریخی[ویرایش]

نیدلمن و وانچ، الگوریتم خود را برای حالتی که تنها از طریق تطابق و عدم تطابق، دارای جریمه هستیم و پرش‌ها هیچ گونه جریمه‌ای را ایجاد نمی‌کنند(d=۰)، به‌طور واضح توصیف کردند. اویلین انتشار عمومی آن‌ها در سال ۱۹۷۰، به راه حلی بازگشتی اشاره داشت.

$F_{ij}=\max _{h<i,k<j}\{F_{h,j-1}+S(A_{i},B_{j}),F_{i-1,k}+S(A_{i},B_{j})\}$ .

عامل جریمه عددی کاهش یافته‌است که برای هر پرش ساخته شده‌است و می‌تواند به عنوان سدی برای قبول پرش‌ها مورد ارزیابی قرار بگیرد. عامل جریمه می‌تواند تابعی از اندازه و/یا مسیر پرش باشد.

یک الگوریتم بهتر برای همان مسئله(بدون جریمه پرش) که باز هم از روش برنامه نویسی پویا استفاده کرده‌است و زمان اجرای آن درجه دو است، در سال ۱۹۷۲ توسط دیوید سنکوف^[۴] ارائه شد. الگوریتم‌های دیگری با همان درجه زمان اجرا، توسط وینتسیوک^[۵]، در سال ۱۹۶۸ برای پردازش گفتار، و روبرت ونگر و مایکل فایکر^[۶]، در سال ۱۹۷۴ برای تطابق رشته‌ای ارائه شده‌است.
وانچ و نیدلمن، الگوریتم خود را به صورت بیشینه شباهت، فرموله کردند. یک امکان دیگر، کمینه کردن تغییرات بین دو توالی است. که ولادمیر لونشتین آن را معرفی کرد. در سال ۱۹۷۴، پیتر سلرز^[۷] نشان که این دو الگوریتم در واقع معادل همند.
امروزه «نیدلمن-وانج» به یک الگوریتم همترازی سراسری اشاره می‌کند که برای جریمه پرش‌های خطی، زمان اجرایی از درجه دو دارد.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

↑ ^۱٫۰ ^۱٫۱ Needleman, Saul B. & Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology. 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325.
↑ ^۲٫۰ ^۲٫۱ ^۲٫۲ Wing-Kin., Sung (2010). Algorithms in bioinformatics : a practical introduction. Boca Raton: Chapman & Hall/CRC Press. pp. 34–35. ISBN 9781420070330. OCLC 429634761.
↑ Masek, William; Paterson, Michael (February 1980). "A faster algorithm computing string edit distances". Journal of Computer and System Sciences. 20: 18–31. doi:10.1016/0022-0000(80)90002-1.
↑ Sankoff, D. (1972). "Matching sequences under deletion/insertion constraints". Proceedings of the National Academy of Sciences of the USA. ۶۹ (۱): ۴–۶. doi:10.1073/pnas.69.1.4. PMC 427531. PMID ۴۵۰۰۵۵۵. {{cite journal}}: Check |pmid= value (help)
↑ Vintsyuk, T. K. (1968). "Speech discrimination by dynamic programming". Kibernetika. ۴: ۸۱–۸۸.
↑ Wagner, R. A. and Fischer, M. J. (1974). "The string-to-string correction problem". Journal of the ACM. ۲۱ (۱): ۱۶۸–۱۷۳. doi:۱۰.۱۱۴۵/۳۲۱۷۹۶.۳۲۱۸۱۱. {{cite journal}}: Check |doi= value (help)نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)
↑ Sellers, P. H. (1974). "On the theory and computation of evolutionary distances". SIAM Journal on Applied Mathematics. ۲۶ (۴): ۷۸۷–۷۹۳. doi:۱۰.۱۱۳۷/۰۱۲۶۰۷۰. {{cite journal}}: Check |doi= value (help)

[Needleman-1] ۱٫۰ ^۱٫۱ Needleman, Saul B. & Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology. 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325.

[:0-2] ۲٫۰ ^۲٫۱ ^۲٫۲ Wing-Kin., Sung (2010). Algorithms in bioinformatics : a practical introduction. Boca Raton: Chapman & Hall/CRC Press. pp. 34–35. ISBN 9781420070330. OCLC 429634761.

[3] Masek, William; Paterson, Michael (February 1980). "A faster algorithm computing string edit distances". Journal of Computer and System Sciences. 20: 18–31. doi:10.1016/0022-0000(80)90002-1.

[Sankoff-4] Sankoff, D. (1972). "Matching sequences under deletion/insertion constraints". Proceedings of the National Academy of Sciences of the USA. ۶۹ (۱): ۴–۶. doi:10.1073/pnas.69.1.4. PMC 427531. PMID ۴۵۰۰۵۵۵. {{cite journal}}: Check |pmid= value (help)

[Vintsyuk-5] Vintsyuk, T. K. (1968). "Speech discrimination by dynamic programming". Kibernetika. ۴: ۸۱–۸۸.

[WagnerFischer-6] Wagner, R. A. and Fischer, M. J. (1974). "The string-to-string correction problem". Journal of the ACM. ۲۱ (۱): ۱۶۸–۱۷۳. doi:۱۰.۱۱۴۵/۳۲۱۷۹۶.۳۲۱۸۱۱. {{cite journal}}: Check |doi= value (help)نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)

[Sellers-7] Sellers, P. H. (1974). "On the theory and computation of evolutionary distances". SIAM Journal on Applied Mathematics. ۲۶ (۴): ۷۸۷–۷۹۳. doi:۱۰.۱۱۳۷/۰۱۲۶۰۷۰. {{cite journal}}: Check |doi= value (help)

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]