هم‌ترازسازی چند توالی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

هم‌ترازسازی چند توالی (Multiple Sequence Alignment)، هم تراز کردن توالی سه یا بیشتر توالی‌های بیولوژیکی - که به طور کلی شامل پروتئین، DNA و RNA می‌شود- است. در بسیاری از حالات، فرض شده‌است که مجموعهٔ ورودی از توالی‌های درخواستی یک رابطهٔ تکاملی با هم دارند به طوری که همهٔ آن‌ها اجداد یک جد مشترک هستند. از روی نتایج MSA، می‌توان به تشابه توالی پی برد و همچنین آنالیز تکامل نژادی می‌تواند به ارزیابی منشأ تکاملی مشترک توالی‌ها منجر شود. شکل سمت چپ نمایشی از هم تراز سازی را نشان می‌دهد که در آن جهش‌ها از قبیل جهش‌های نقطه‌ای (تغییر در تنها یک آمینو اسید یا نوکلئتید) به صورت تفاوت در کاراکترهای یک ستون، یا جهش‌های رخنه‌ای یا حذفی (indel) به صورت خط تیره در یک یا چند توالی ظاهر شده‌اند. هم تراز کردن چند توالی غالباً برای ارزیابی کانزرویشن توالی از نواحی پروتئینی، ساختارهای دوم یا سوم و حتی برای یک آمینو اسید یا یک نوکلئوتید استفاده می‌شود. از آنجا که همتراز سازی سه یا بیشتر توالی‌های با طول بیولوژیکی توسط دست کاری بس دشوار و زمانبر است، الگوریتم‌های محاسباتی برای تولید و آنالیز همترازی‌ها (alignments) استفاده می‌شوند. MSAها به متدلوژی‌های پیچیده تری نسبت به همترازسازی دوبدو نیاز دارند، زیرا که از لحاظ محاسباتی پیچیده ترند. اکثر برنامه‌های هم تراز کردن چند توالی از روش‌های اکتشافی (heuristic methods) به جای روش‌های بهینهٔ کلی (global optimization) استفده می‌کند چون تعیین همترازسازی بهینه بین تعدادی از توالی‌های با طول متوسط از نظر محاسباتی غیر ممکن و پرهزینه‌است.

90 موقعیت ابتدایی از یک هم تراز سازی پروتئین برای نمونه‌های پروتئین اسید ریبوزومP0 (L10E) گرفته شده از ارگانیسم‌های مختلف. تولید شده توسط کلاستال

برنامه نویسی پویا و پیچیدگی محاسباتی[ویرایش]

یک روش مستقیم برای تولید MSA استفاده از تکنیک برنامه نویسی پویاست که می‌تواند جواب بهینه برای همتراز سازی را مشخص کند. برای پروتئین‌ها این روش معمولاً شامل دو مجوعه پارامتر است: جریمهٔ پرش (gap penalty) و ماتریس جانشانی (substitution matrix) که به هر جفت ممکن آمینواسیدی یک امتیاز یا احتمال بر اساس شباهت خواص شیمیایی آمینواسیدها و احتمال تکامل جهش‌ها می‌دهد. برای توالی‌های نوکلئوتیدی از یک جریمهٔ پرش یکسان استفاده می‌شود، اما معمولاً یک ماتریس جانشینی ساده تر که فقط در آن تطابق‌های یکسان (identical match) و عدم تطابق‌ها (mismatch) در نظر گرفته شده‌اند به کار گرفته می‌شود. امتیازهای ماتریس جانشینی در حالتی که همترازسازی کلی مد نظر است می‌تواند یا همه مثبت باشند یا ترکیبی از امتیازهای مثبت و منفی باشد، اما در حالت همترازسازی محلی حتماً باید ترکیبی از امتیازهای مثبت و منفی باشد.[۱] برای 'n' توالی منفرد، یک روش ساده و ابتدایی احتیاج به ساختن ماتریس n بعدی متناظر با ماتریسی که در همترازسازی دوبدو استاندارد تشکیل می‌شود، دارد. بنابراین فضای جستجو با افزایش مقدار n به صورت نمایی افزایش می‌یابد و علاوه بر این به طول توالی شدیداً وابسته‌است. اگر بخواهیم با نماد Oی بزرگ که معمولاً برای اندازه گیری پیچیدگی محاسباتی استفاده می‌شود میزان پیچیدگی یک MSA ساده و ابتدایی را بیان کنیم به اندازهٔ (O(LengthNseqs زمان می‌برد. نشان داده شده‌است که این روش برای یافتن بهینهٔ کلی برای n توالی یک مسألهٔ NP-complete است. [۲][۳][۴] در ۱۹۸۹، براساس الگوریتم کاریلو-لیپمن، [۵] التسکال یک روش عملی ارائه داد که از همترازسازی دوبدو برای محدود کردن فضای جستجو n بعدی می‌کرد. [۶] در این روش بر روی هر جفت توالی از مجموعهٔ ورودی همترازسازی دوبدو به صورت برنامه نویسی پویا اعمال می‌شود، و فقط فضای n بعدیِ نزدیک به تقاطع این همترازسازی‌ها جستجو می‌شود. لگوریتم MSA حاصلجمع تمام جفت کاراکترهای هر موقعیت در همترازسازی را بهینه می‌کند و در یک برنامهٔ نرم افزاری پیاده سازی شده‌است..[۷]

ساخت همترازسازی جلورونده[ویرایش]

پراستفاده ترین روش برای هم تراز کردن چند توالی از یک جستجوی اکتشافی به نام تکنیک جلورونده (روش سلسله مراتبی یا درختی) استفاده می‌کند، که MSA نهایی را از روی ترکیب همترازسازی دوبدو‌هایی که با شبیه ترین جفت شروع می‌شوند و تا دورترین جفت‌ها ادامه پیدا می‌کند، می‌سازد. تمام همترازسازی جلورونده به دو مرحله احتیاج دارند: مرحلهٔ اول که در آن رابطهٔ بین توالی‌ها به وسیلهٔ یک درخت که درخت راهنما نام دارد نمایش داده می‌شود و مرحلهٔ دوم که در آن MSA با توجه به درخت راهنما و از اضافه کردن توالی‌ها به یکدیگر بدست می‌آید. درخت راهنمای اولیه توسط یک روش کارآمد خوشه بندی مانند neighbor-joining یا UPGMA تعیین می‌شود.[۸] همترازسازی جلورونده نمی‌توانند بهینهٔ کلی باشند. مشکل اصلی این است که وقتی خطاهایی در هر یک از مراحل ساخت MSA رخ می‌دهد، این خطاها به مراحهٔ نهایی انتشار پیدا می‌کنند. همچنین زمانی که توالی‌ها نسبتاً از هم دورند راندمان بد می‌شود. اکثر روش‌های جلورونده تابع امتیازدهی شان را از روی یک تابع وزن دهی ثانویه تغییر می‌دهند. این تابع وزن دهی ثانویه به هر یک از اعضای مجموعهٔ درخواستی یک فاکتور مقیاس گذاری غیرخطی انتساب می‌دهد که این مقدار از روی فاصلهٔ فیلوژنتیکی از نزدیکترین همسایه‌ها بدست می‌آید. این کار باعث اصلاح انتخاب غیر تصادفی از توالی‌های داده شده، برای ورودی دادن به برنامهٔ همتراز سازی می‌شود.[۸] روش‌های همترازسازی جلورونده به اندازهٔ کافی کارآمد هستند که روی مقیاس‌های بزرگ (100 تا 1000) از تعداد توالی‌ها پیاده سازی شوند. سرویس‌های همترازسازی جلورونده بر روی وب سرورهای عمومی دردسترس هستند بنابراین لازم نیست که کاربران بطور محلی برنامه‌های کاربردی موردنظر خود را نصب کنند. معروف ترین روش همترازسازی جلورونده خانوادهٔ Clustal هستند، [۹] به خصوص انواع وزندار آن ClustalW[۱۰]>. روش ClustalW بطور گسترده برای ساخت درخت فیلوژنتیک به کار می‌رود. یکی دیگر از رایجترین روش‌های همترازسازی جلورونده روش تی-کافی[۱۱] است که البته از روش Clustal و مشتقاتش کندتر است اما بطور کلی همترازهای دقیق تری برای توالی‌هایی که از هم دورند تولید می‌کند. این روش از خروجی الگوریتم Clustal و برنامهٔ همترازسازی محلی LALIGAN که نواحی‌هایی از همترازسازی محلی را بین دو توالی پیدا می‌کند، استفاده می‌کند. از همترازسازی حاصل و همچنین درخت فیلوژنتیک به عنوان راهنمایی برای تولید فاکتورهای وزنی بیشتر و دقیق تر استفاده می‌شود. چون روش‌های جلورونده اکتشافی هستند و هیچ تضمینی وجود ندارد که به جواب بهینهٔ کلی همگرا شوند، ارزیابی کیفیت همترازسازی دشوار خواهد بود و مفهوم واقعی بایولوژیکی آن گنگ و مبهم خواهد بود. یک متد نیمه جلورونده که کیفیت همترازسازی را ارتقا می‌دهد و همچنین از روش اکتشافی پراتلاف استفاده نمی‌کند و در عین حال در زمان چندجمله‌ای اجرا می‌شود در برنامهٔ PSAlign PSAlign.[۱۲] پیاده سازی شده‌است.

روش‌های تکراری[ویرایش]

مجموعه‌ای از روش‌های تولید MSA که خطاهای ناشی از الگوریتم‌های جلورونده را کاهش می‌دهند در زمرهٔ روش‌های تکراری قرار می‌گیرند چونکه عملکردشان بسیار شبیه به روش‌های جلورونده‌است با این تفاوت که مرتباً توالی‌های اولیه را دوباره همترازسازی می‌کند و به MSA اضافه می‌کند.[۱۳] یکی از دلایلی که روش‌های جلورونده شدیداً وابسته به توالی با کیفیت بسیار بالای اولیه هستند این است که همیشه جواب نهایی از روی این توالی‌ها بدست می‌آید. این تخمین کارایی را به قیمت دقت بهبود می‌دهد. در مقابل، روش‌های تکراری می‌توانند به همترازسازی دوبدوهای محاسبه شدهٔ قبلی یا زیر MSAهای بدست آمده رجوع کنند و بدین وسیله تابع هدف کلی را که می‌تواند برای مثال یافتن امتیاز همترازسازی با کیفیت بالا باشد بهینه کند.[۸] روش‌های تکراری متعددی که تفاوت‌های جرئی با هم دارند در بسته‌های نرم افزاری موجود هستند: بازبینی‌ها و مقایسه‌ها مفیدند اما اینکه کدام یک بهترین تکنیک هستند را تعیین نمی‌کنند.[۱۴] بستهٔ نرم افزاری PRRN/PRRP از یک الگوریتم تپه نوردی برای بهینه کردن امتیاز همترازسازی MSA استفاده می‌کند[۱۵] و به صورت تکراری هم وزن‌های همترازسازی و هم ناحیه‌های پرش دارِ MSA را بهینه می‌کند.[۸] اگر همترازسازی ای که پیشتر به آن اشاره شد را با یک روش سریع تر جایگزین کنیم [۸] PRRP بهترین عملکرد را خواهد داشت.[۸] یکی دیگر از برنامه‌هایی که به صورت تکراری عمل می‌کنند، DIALING است که از یک روش غیرمعمول بهره می‌گیرد به اینصورت که بدون ارائهٔ جریمهٔ پرش تمرکز دقیقی روی همترازهای محلی بین زیرقطعات یا توالی‌های موتیف می‌کند. سپس همترازسازی هر یک از موتیف‌ها با استفاده از یک ماتریس نمایش دهی مانند ماتریس رسم نقطه‌ای (dot plot) که در همترازسازی دوبدو به کار گرفته می‌شد، بدست می‌آید. روش دیگری که از همترازسازی محلی سریع به عنوان نقاط لنگری استفاده می‌کند در سری برنامه‌های CHAOS/DIALING پیاده سازی شده‌اند.[۱۶] سومین روش معروفِ برمبنای تکرار MUSCLE(multiple sequence alignment by log-expectation) نام دارد که از یک معیار دقیق تر اندازه گیری فاصله برای محاسبهٔ میزان مرتبط بودن توالی‌ها استفاده می‌کند.[۱۷] مقدار فاصله در هر دور تکرار به روز می‌شود.

مدل‌های مارکوف پنهان[ویرایش]

مدل‌های مارکوف پنهان (HMM) مدل‌های احتمالی ای هستند که می‌توانند برای تمام حالات ممکن از ترکیب پرش‌ها، تطابق‌ها و عدم تطابق‌ها احتمالاتی (likelihood) را نسبت دهند تا محتمل ترین MSA یا مجموعه‌ای از MSA‌ها را تعیین کنند. HMM‌ها می‌توانند تنها یک امتیازدهی با بالاترین مقدار راتولید کنند اما در عین حال می‌توانند خانواده‌ای از همتراز سازی‌های ممکن را که از نظر بایولوژیکی قابل ملاحظه هستند نیز تولید کنند. HMM‌ها هم می‌توانند همترازسازی‌های محلی و هم کلی را تولید کنند. اگرچه روش‌های مبتنی بر HMM نسبتاً به تازگی توسعه پیدا کرده‌اند، اما پیشرفت‌های قابل ملاحظه‌ای در سرعت محاسبات داشته‌اند، مخصوصاً در مورد توالی‌هایی که حاوی نواحی همپوشانی دار هستند.[۸] معمولاً روش‌های مبتنی بر HMM به اینگونه کار می‌کنند که MSA را به صورت یک گراف جهتدار بدون دور نمایش می‌دهند که شامل یک سری از گره هاست که نشان دهندهٔ ستون‌های محتمل برای یک MSA هستند. در این نحوهٔ نمایش دادن ستونی که به طور قطع حفظ شده‌است (به این معنی که تمام توالی‌های یک MSA در یک کاراکتر خاص و در یک مکان خاص با هم مشترکند) به عنوان گره‌ای که به تعداد کاراکترهای ممکن از ستون بعدیِ هم ترازسازی ارتباط خروجی دارد، کد می‌شود. بر حسب مدل مارکوف پنهان، وضعیت‌های مشاهده شده همان ستون‌های همترازسازی و وضعیت‌های پنهان معرف اجداد توالی‌هایی از مجموعهٔ درخواستی هستند که مفروض به داشتن نوادگان می‌باشند. یکی از انواع جستجوی کارآمد برنامه نویسی پویا، معروف به الگوریتم ویتربای، برای همتراز کردن MSA در حال توسعه با توالی‌های بعدی از مجموعهٔ درخواستی به منظور تولید MSA جدید استفاده می‌شود..[۱۸] برنامه‌های نرم افزاری متعددی برای انواع روش‌های مبتنی بر HMM پیاده سازی شده‌اند و از نظر مقیاس پذیری و کارایی مورد ملاحظه قرار گرفته‌اند، اگرچه استفادهٔ صحیح از HMM به مراتب پیچیده تر از روش‌های جلوروندهٔ معمولی است. ساده ترین این برنامه‌ها POA(partial-order alignment) است؛ یک روش مشابه اما کلی تر در بسته‌های SAM (Sequence Alignment and Modeling System).[۱۹]] و HMMER[۲۰] and HMMER پیاده سازی شده‌است.[۲۱] SAM به عنوان منبعی برای پیش بینی ساختار پروتئین مورد استفاده قرار می‌گیرد و از آن در آزمایش‌های پیش بینی ساختار CASP و توسعهٔ پایگاه داده‌ای از ساختارهای پیش بینی شده در گونه‌های مخمر ساکارومایسس سرویزیهکمک گرفته می‌شود. بستهٔ نرم افزاریِ HHsearch[۲۲] توالی‌های پروتئینی ای که از هم دورند را بر اساس مقایسهٔ دوبدوی HMM‌ها پیدا می‌کند.

الگوریتم ژنتیک و الگوریتم تبرید شبیه سازی شده[ویرایش]

از الگوریتم ژنتیک برای تو لید MSA برای شبیه سازی فرآیند تکاملی ای که منجر ایجاد به داده‌های متنوع و واگرا در مجموعهٔ درخواستی شده‌است، استفاده می‌شود. این روش یه اینگونه عمل می‌کند که MSA‌های ممکن را به چندین بخش تقسیم می‌کند و مرتباً با ایجاد پرش در جاهای مختلف از این بخش‌ها آن‌ها را بازچینی می‌کند. در طی فرآیند شبیه سازی یک تابع هدف کلی بهینه می‌شود، بطور کلی این تابع همان تابع «حاصلجمع جفت هاًست که در قسمت برنامه نویسی پویا معرفی شد و قصد بر این است که مقدار این تابع ماکزیمم شود. تکنیکی برای توالی‌های پروتئینی در برنامه نرم افزاری SAGA (Sequence Alignment by Genetic Algorithm)[۲۳] و معادل آن برای RNA در RAGA[۲۴] پیاده سازی شده‌است. تکنیک تبرید شبیه سازی شده با یک MSA موجود که در ابتدا از یک روش دیگر تولید شده‌است کار را آغاز می‌کند و با اعمال یک سری بازچینی‌های طراحی شده سعی در یافتن فضاهای همترازسازی بهتری نسبت به آنچه که همترازسازی ورودی در حال حاضر اشغال کرده‌است، می‌کند. روش تبرید شبیه سازی شده نیز همانند الگوریتم ژنتیک یک تابع هدف را (مثل تابع حاصلجمع جفت‌ها) ماکزیمم می‌کند. این روش در برنامهٔ MSASA (Multiple Sequence Alignment by Simulated Annealing)[۲۵] پیاده سازی شده‌است.

موتیف یابی[ویرایش]

Alignment of the seven Drosophila caspases colored by motifs as identified by MEME. When motif positions and sequence alignments are generated independently، they often correlate well but not perfectly، as in this example.

موتیف یابی یا تحلیل پروفایل، روش یافتن توالی‌های موتیف در MSA‌های کلی است که هم روشی برای تولید MSA‌های بهتری و هم وسیله‌ای برای و هم وسیله‌ای برای تولید ماتریس نمره دهی برای جستجوی موتیف‌های مشابه در سایر توالی هاست. در تحلیل پروفایل استاندارد، برای هر کاراکتر ممکن و هم پرش درایه‌ای در ماتریس اختصاص داده می‌شود.[۸] از طرف دیگر، همترازسازی‌های الگویابی آماری، می‌توانند به جای یافتن مشتقات MSA موتیف‌هایی که پیشرو هستند را بیابند. در مواقعی که مجموعهٔ درخواستی صرفاً شامل تعداد کمی توالی یا توالی‌های به شدت به هم وابسته هست، سودونات اضافه می‌کنند تا توزیعی که در ماتریس نمره دهی وجود دارد نرمال شود. تحلیل بلاک روشی برای موتیف یابی است که موتیف‌ها را محدود به نواحی بدون پرش در همترازسازی می‌کند. بلاک‌ها می‌توانند از روی MSA تولید شوند یا از روی توالی‌های همتراز نشده استخراج شوند.[۲۶] تطابق الگوی آماری هم توسط الگوریتم ماکزیمم سازی انتظار و هم توسط نمونه برداری گیبز پیاده سازی شده‌است. یکی از معروف ترین ابزارهای موتیف یابی MEME می‌باشد که از ماکزیمم سازی انتظار و مدل مارکوف‌های مخفی استفاده می‌کند تا موتیف‌هایی را تولید کند که از آن پس به همراه MAST که در مجموعهٔ MEME/MAST[۲۷][۲۸] موجود است برای ابزارهای جستجو استفاده شود.

ابزارهای تصویری و ابزارهای ویرایش[ویرایش]

استفاده از روش‌های اکتشافی برای همترازسازی چند توالی به این معنی است که برای هر مجموعهٔ دلخواه از پروتئین‌ها همیشه این شانس وجود دارد که همترازسازی با خطا همراه باشد. ناظران همترازسازی چند توالی این امکان را فراهم کرده‌اند که همترازسازی‌ها به صورت شهودی و بصری قابل بازبینی باشند. علاوه براین برخی این قابلیت را فراهم کرده‌اند که بتوان خطاها را (معمولاً خطاهای کوچک و جرئی) را اصلاح کرد.[۲۹]

کاربرد در فیلوژنتیک ها[ویرایش]

همترازسازی چند توالی می‌تواند در ساخت درخت فیلوژنتیک استفاده شود.[۳۰] به دو دلیل این کار امکانپذیر است. دلیل اول اینکه نواحی کارکردی که در توالی‌های تفسیر شده شناخته شده هستند می‌توانند برای همترازسازی توالی‌های تفسیر نشده به کار گرفته شوند. دلیل دیگر این است که نواحی حفظ شده‌ای که می‌دانیم از لحاظ کاکردی مهم هستند را می‌توان یافت. بنابراین این امکان فراهم می‌شود که همترازسازی چند توالی برای تحلیل و یافتن روابط تکاملی بین توالی‌ها استفاده شود.جهش‌های نقطه‌ای و درج و حذف‌ها می‌توانند معلوم شوند.

همچنین ببینید[ویرایش]

شاخه‌بندی
هم ترازسازی درختی تعمیم یافته
فیلوژنتیک
نرم افزار همترازسازی توالی
ناظران همترازسازی چند توالی
همترازسازی ساختاری

منابع[ویرایش]

  1. "Help with matrices used in sequence comparison tools". European Bioinformatics Institute. Retrieved March 3, 2010. 
  2. Wang L, Jiang T (1994). "On the complexity of multiple sequence alignment". J Comput Biol 1 (4): 337–348. DOI:10.1089/cmb.1994.1.337. PMID 8790475. 
  3. Just W (2001). "Computational complexity of multiple sequence alignment with SP-score". J Comput Biol 8 (6): 615–23. DOI:10.1089/106652701753307511. PMID 11747615. 
  4. Elias, Isaac (2006). "Settling the intractability of multiple alignment". J Comput Biol 13 (7): 1323–1339. DOI:10.1089/cmb.2006.13.1323. PMID 17037961. 
  5. Carrillo H, Lipman DJ,(1988) The Multiple Sequence Alignment Problem in Biology. SIAM Journal of Applied Mathematics, Vol.48, No. 5, 1073-1082
  6. Lipman DJ, Altschul SF, Kececioglu JD (1989). "A tool for multiple sequence alignment". Proc Natl Acad Sci U S A 86 (12): 4412–4415. DOI:10.1073/pnas.86.12.4412. PMC 287279. PMID 2734293. 
  7. "Genetic analysis software". National Center for Biotechnology Information. Retrieved March 3, 2010. 
  8. ۸٫۰ ۸٫۱ ۸٫۲ ۸٫۳ ۸٫۴ ۸٫۵ ۸٫۶ ۸٫۷ Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
  9. Higgins DG, Sharp PM (1988). "CLUSTAL: a package for performing multiple sequence alignment on a microcomputer". Gene 73 (1): 237–244. DOI:10.1016/0378-1119(88)90330-7. PMID 3243435. 
  10. Thompson JD, Higgins DG, Gibson TJ (1994). "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice". Nucleic Acids Res 22 (22): 4673–4680. DOI:10.1093/nar/22.22.4673. PMC 308517. PMID 7984417. 
  11. Notredame C, Higgins DG, Heringa J (2000). "T-Coffee: A novel method for fast and accurate multiple sequence alignment". J Mol Biol 302 (1): 205–217. DOI:10.1006/jmbi.2000.4042. PMID 10964570. 
  12. Sze SH, Lu Y, Yang Q (2006). "A polynomial time solvable formulation of multiple sequence alignment". J Comput Biol 13 (2): 309–319. DOI:10.1089/cmb.2006.13.309. PMID 16597242. 
  13. Hirosawa M, Totoki Y, Hoshida M, Ishikawa M (1995). "Comprehensive study on iterative algorithms of multiple sequence alignment". Comput Appl Biosci 11 (1): 13–18. DOI:10.1093/bioinformatics/11.1.13. PMID 7796270. 
  14. [13]
  15. Gotoh O (1996). "Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments". J Mol Biol 264 (4): 823–38. DOI:10.1006/jmbi.1996.0679. PMID 8980688. 
  16. Brudno M, Chapman M, Göttgens B, Batzoglou S, Morgenstern B (2003). "Fast and sensitive multiple alignment of large genomic sequences". BMC Bioinformatics 4: 66. 
  17. Edgar RC (2004). "MUSCLE: multiple sequence alignment with high accuracy and high throughput". Nucleic Acids Research 32 (5): 1792–97. DOI:10.1093/nar/gkh340. PMC 390337. PMID 15034147. 
  18. Hughey R, Krogh A (1996). "Hidden Markov models for sequence analysis: extension and analysis of the basic method". CABIOS 12 (2): 95–107. PMID 8744772. 
  19. Grasso C, Lee C (2004). "Combining partial order alignment and progressive multiple sequence alignment increases alignment speed and scalability to very large alignment problems". Bioinformatics 20 (10): 1546–56. DOI:10.1093/bioinformatics/bth126. PMID 14962922. 
  20. Hughey R, Krogh A. SAM: Sequence alignment and modeling software system. Technical Report UCSC-CRL-96-22, University of California, Santa Cruz, CA, September 1996.
  21. Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 1998.
  22. Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). "Automated server predictions in CASP7". Proteins 69 (Suppl 8): 68–82. DOI:10.1002/prot.21761. PMID 17894354. 
  23. Notredame C, Higgins DG (1996). "SAGA: sequence alignment by genetic algorithm". Nucleic Acids Res 24 (8): 1515–24. DOI:10.1093/nar/24.8.1515. PMC 145823. PMID 8628686. 
  24. Notredame C, O'Brien EA, Higgins DG (1997). "RAGA: RNA sequence alignment by genetic algorithm". Nucleic Acids Res 25 (22): 4570–80. DOI:10.1093/nar/25.22.4570. PMC 147093. PMID 9358168. 
  25. Kim J, Pramanik S, Chung MJ (1994). "Multiple sequence alignment using simulated annealing". Comput Appl Biosci 10 (4): 419–26. PMID 7804875. 
  26. Henikoff S, Henikoff JG (1991). "Automated assembly of protein blocks for database searching". Nucleic Acids Res 19 (23): 6565–6572. DOI:10.1093/nar/19.23.6565. PMC 329220. PMID 1754394. 
  27. Bailey TL, Elkan C (1994). "Fitting a mixture model by expectation maximization to discover motifs in biopolymers". Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology. Menlo Park, California: AAAI Press. pp. 28–36. 
  28. Bailey TL, Gribskov M (1998). "Combining evidence using p-values: application to sequence homology searches". Bioinformatics 14 (1): 48–54. DOI:10.1093/bioinformatics/14.1.48. PMID 9520501. 
  29. "Manual editing and adjustment of MSAs". European Molecular Biology Laboratory. 2007. Retrieved March 7, 2010. 
  30. Budd, Aidan (10 February 2009). "Multiple sequence alignment exercises and demonstrations". European Molecular Biology Laboratory. Retrieved June 30, 2010. 

پیوند به بیرون[ویرایش]

* ExPASy sequence alignment tools

مطالعه بیشتر[ویرایش]

* Multiple sequence alignment lectures — from the Max Planck Institute for Molecular Genetics