هم‌ترازسازی چندتوالی: تفاوت میان نسخه‌ها

از ویکی‌پدیا، دانشنامهٔ آزاد
محتوای حذف‌شده محتوای افزوده‌شده
Fba 1367 (بحث | مشارکت‌ها)
صفحه‌ای جدید حاوی '=هم تراز کردن چند توالی (Multiple Sequence Alignment)= '''هم تراز کردن چند توالی (MSA)'''، [[هم تراز ...' ایجاد کرد
(بدون تفاوت)

نسخهٔ ‏۲۶ ژوئن ۲۰۱۱، ساعت ۰۹:۳۱

هم تراز کردن چند توالی (Multiple Sequence Alignment)

هم تراز کردن چند توالی (MSA)، هم تراز کردن توالی سه یا بیشتر توالی های بایولوژیکی - که به طور کلی شامل پروتئین، DNA و RNA می شود- است. در بسیاری از حالات، فرض شده است که مجموعۀ ورودی از توالی های درخواستی یک رابطۀ تکاملی با هم دارند به طوری که همۀ آن ها اجداد یک جد مشترک هستند. از روی نتایج MSA، می توان به تشابه توالی پی برد و همچنین آنالیز تکامل نژادی می تواند به ارزیابی منشأ تکاملی مشترک توالی ها منجر شود. شکل سمت راست نمایشی از هم تراز سازی را نشان می دهد که در آن جهش ها از قبیل جهش های نقطه های ( تغییر در تنها یک آمینو اسید یا نوکلئتید) به صورت تفاوت در کاراکترهای یک ستون، یا جهش های رخنه ای یا حذفی (indels) به صورت خط تیره در یک یا چند توالی ظاهر شده اند. هم تراز کردن چند توالی غالباً برای ارزیابی کانزرویشن توالی از نواحی پروتئینی، ساختارهای دوم یا سوم و حتی برای یک آمینو اسید یا یک نوکلئوتید استفاده می شود. از آنجا که همتراز سازی سه یا بیشتر توالی های با طول بایولوژیکی توسط دست کاری بس دشوار و زمانبر است، الگوریتم های محاسباتی برای تولید و آنالیز همترازی ها (alignments) استفاده می شوند. MSAها به متدلوژی های پیچیده تری نسبت به همترازسازی دوبدو نیاز دارند، زیرا که از لحاظ محاسباتی پیچیده ترند. اکثر برنامه های هم تراز کردن چند توالی از روش های اکتشافی (heuristic methods) به جای روش های بهینۀ کلی (global optimization) استفده می کند چون تعیین همترازسازی بهینه بین تعدادی از توالی های با طول متوسط از نظر محاسباتی غیر ممکن و پرهزینه است.

برنامه نویسی پویا و پیچیدگی محاسباتی

یک روش مستقیم برای تولید MSA استفاده از تکنیک برنامه نویسی پویاست که می تواند جواب بهینه برای همتراز سازی را مشخص کند. برای پروتئین ها این روش معمولاً شامل دو مجوعه پارامتر است: جریمۀ پرش (gap penalty) و ماتریس جانشانی (substitution matrix) که به هر جفت ممکن آمینواسیدی یک امتیاز یا احتمال بر اساس شباهت خواص شیمیایی آمینواسیدها و احتمال تکامل جهش ها می دهد. برای توالی های نوکلئوتیدی از یک جریمۀ پرش یکسان استفاده می شود، اما معمولاً یک ماتریس جانشینی ساده تر که فقط در آن تطابق های یکسان (identical match) و عدم تطابق ها (mismatch) در نظر گرفته شده اند به کار گرفته می شود. امتیازهای ماتریس جانشینی در حالتی که همترازسازی کلی مد نظر است می تواند یا همه مثبت باشند یا ترکیبی از امتیازهای مثبت و منفی باشد، اما در حالت همترازسازی محلی حتماً باید ترکیبی از امتیازهای مثبت و منفی باشد.[۱] برای n توالی منفرد، یک روش ساده و ابتدایی احتیاج به ساختن ماتریس n بعدی متناظر با ماتریسی که در همترازسازی دوبدو استاندارد تشکیل می شود، دارد. بنابراین فضای جستجو با افزایش مقدار n به صورت نمایی افزایش می یابد و علاوه بر این به طول توالی شدیداً وابسته است. اگر بخواهیم با نماد Oی بزرگ که معمولاً برای اندازه گیری پیچیدگی محاسباتی استفاده می شود میزان پیچیدگی یک MSA ساده و ابتدایی را بیان کنیم به اندازۀ O(LengthNseqs) زمان می برد. نشان داده شده است که این روش برای یافتن بهینۀ کلی برای n توالی یک مسألۀ NP-complete است. [۲] [۳] [۴] در 1989، براساس الگوریتم کاریلو-لیپمن، [۵] التسکال یک روش عملی ارائه داد که از همترازسازی دوبدو برای محدود کردن فضای جستجو n بعدی می کرد. [۶] در این روش بر روی هر جفت توالی از مجموعۀ ورودی همترازسازی دوبدو به صورت برنامه نویسی پویا اعمال می شود، و فقط فضای n بعدیِ نزدیک به تقاطع این همترازسازی ها جستجو می شود. لگوریتم MSA حاصلجمع تمام جفت کاراکترهای هر موقعیت در همترازسازی را بهینه می کند و در یک برنامۀ نرم افزاری پیاده سازی شده است.[۷]

ساخت همترازسازی جلورونده

پراستفاده ترین روش برای هم تراز کردن چند توالی از یک جستجوی اکتشافی به نام تکنیک جلورونده (روش سلسله مراتبی یا درختی) استفاده می کند، که MSA نهایی را از روی ترکیب همترازسازی دوبدو هایی که با شبیه ترین جفت شروع می شوند و تا دورترین جفت ها ادامه پیدا می کند، می سازد. تمام همترازسازی جلورونده به دو مرحله احتیاج دارند: مرحلۀ اول که در آن رابطۀ بین توالی ها به وسیلۀ یک درخت که درخت راهنما نام دارد نمایش داده می شود و مرحلۀ دوم که در آن MSA با توجه به درخت راهنما و از اضافه کردن توالی ها به یکدیگر بدست می آید. درخت راهنمای اولیه توسط یک روش کارآمد خوشه بندی مانند neighbor-joining یا UPGMA تعیین می شود.[۸] همترازسازی جلورونده نمی توانند بهینۀ کلی باشند. مشکل اصلی این است که وقتی خطاهایی در هر یک از مراحل ساخت MSA رخ می دهد، این خطاها به مراحۀ نهایی انتشار پیدا می کنند. همچنین زمانی که توالی ها نسبتاً از هم دورند راندمان بد می شود. اکثر روش های جلورونده تابع امتیازدهی شان را از روی یک تابع وزن دهی ثانویه تغییر می دهند. این تابع وزن دهی ثانویه به هر یک از اعضای مجموعۀ درخواستی یک فاکتور مقیاس گذاری غیرخطی انتساب می دهد که این مقدار از روی فاصلۀ فیلوژنتیکی از نزدیکترین همسایه ها بدست می آید. این کار باعث اصلاح انتخاب غیر تصادفی از توالی های داده شده، برای ورودی دادن به برنامۀ همتراز سازی می شود.[۹] روش های همترازسازی جلورونده به اندازۀ کافی کارآمد هستند که روی مقیاس های بزرگ (100 تا 1000) از تعداد توالی ها پیاده سازی شوند. سرویس های همترازسازی جلورونده بر روی وب سرورهای عمومی دردسترس هستند بنابراین لازم نیست که کاربران بطور محلی برنامه های کاربردی موردنظر خود را نصب کنند. معروف ترین روش همترازسازی جلورونده خانوادۀ Clustal هستند،[۱۰] به خصوص انواع وزندار آن ClustalW[۱۱]. روش ClustalW بطور گسترده برای ساخت درخت فیلوژنتیک به کار می رود. یکی دیگر از رایجترین روش های همترازسازی جلورونده روش T-Coffee است که البته از روش Clustal و مشتقاتش کندتر است اما بطور کلی همترازهای دقیق تری برای توالی هایی که از هم دورند تولید می کند. این روش از خروجی الگوریتم Clustal و برنامۀ همترازسازی محلی LALIGAN که نواحی هایی از همترازسازی محلی را بین دو توالی پیدا می کند، استفاده می کند. از همترازسازی حاصل و همچنین درخت فیلوژنتیک به عنوان راهنمایی برای تولید فاکتورهای وزنی بیشتر و دقیق تر استفاده می شود. چون روش های جلورونده اکتشافی هستند و هیچ تضمینی وجود ندارد که به جواب بهینۀ کلی همگرا شوند، ارزیابی کیفیت همترازسازی دشوار خواهد بود و مفهوم واقعی بایولوژیکی آن گنگ و مبهم خواهد بود. یک متد نیمه جلورونده که کیفیت همترازسازی را ارتقا می دهد و همچنین از روش اکتشافی پراتلاف استفاده نمی کند و در عین حال در زمان چندجمله ای اجرا می شود در برنامۀ PSAlign پیاده سازی شده است.

روش های تکراری

مجموعه ای از روش های تولید MSA که خطاهای ناشی از الگوریتم های جلورونده را کاهش می دهند در زمرۀ روش های تکراری قرار می گیرند چونکه عملکردشان بسیار شبیه به روش های جلورونده است با این تفاوت که مرتباً توالی های اولیه را دوباره همترازسازی می کند و به MSA اضافه می کند. یکی از دلایلی که روش های جلورونده شدیداً وابسته به توالی با کیفیت بسیار بالای اولیه هستند این است که همیشه جواب نهایی از روی این توالی ها بدست می آید. این تخمین کارایی را به قیمت دقت بهبود می دهد. در مقابل، روش های تکراری می توانند به همترازسازی دوبدوهای محاسبه شدۀ قبلی یا زیر MSAهای بدست آمده رجوع کنند و بدین وسیله تابع هدف کلی را که می تواند برای مثال یافتن امتیاز همترازسازی با کیفیت بالا باشد بهینه کند.[۱۲] روش های تکراری متعددی که تفاوت های جرئی با هم دارند در بسته های نرم افزاری موجود هستند: بازبینی ها و مقایسه ها مفیدند اما اینکه کدام یک بهترین تکنیک هستند را تعیین نمی کنند.[۱۳] بستۀ نرم افزاری PRRN/PRRP از یک الگوریتم تپه نوردی برای بهینه کردن امتیاز همترازسازی MSA استفاده می کند[۱۴] و به صورت تکراری هم وزن های همترازسازی و هم ناحیه های پرش دارِ MSA را بهینه می کند.[۱۵] اگر همترازسازی ای که پیشتر به آن اشاره شد را با یک روش سریع تر جایگزین کنیم PRRP بهترین عملکرد را خواهد داشت.[۱۶] یکی دیگر از برنامه هایی که به صورت تکراری عمل می کنند، DIALING است که از یک روش غیرمعمول بهره می گیرد به اینصورت که بدون ارائۀ جریمۀ پرش تمرکز دقیقی روی همترازهای محلی بین زیرقطعات یا توالی های موتیف می کند. سپس همترازسازی هر یک از موتیف ها با استفاده از یک ماتریس نمایش دهی مانند ماتریس پلات نقطه ای (dot plot) که در همترازسازی دوبدو به کار گرفته می شد، بدست می آید. روش دیگری که از همترازسازی محلی سریع به عنوان نقاط لنگری استفاده می کند در سری برنامه های CHAOS/DIALING پیاده سازی شده اند.[۱۷] سومین روش معروفِ برمبنای تکرار MUSCLE (multiple sequence alignment by log-expectation) نام دارد که از یک معیار دقیق تر اندازه گیری فاصله برای محاسبۀ میزان مرتبط بودن توالی ها استفاده می کند.[۱۸] مقدار فاصله در هر دور تکرار به روز می شود.

مدل های مارکوف پنهان

مدل های مارکوف پنهان (HMM) مدل های احتمالی ای هستند که می توانند برای تمام حالات ممکن از ترکیب پرش ها، تطابق ها و عدم تطابق ها احتمالاتی (likelihood) را نسبت دهند تا محتمل ترین MSA یا مجموعه ای از MSA ها را تعیین کنند. HMM ها می توانند تنها یک امتیازدهی با بالاترین مقدار راتولید کنند اما در عین حال می توانند خانواده ای از همتراز سازی های ممکن را که از نظر بایولوژیکی قابل ملاحظه هستند نیز تولید کنند. HMM ها هم می توانند همترازسازی های محلی و هم کلی را تولید کنند. اگرچه روش های مبتنی بر HMM نسبتاً به تازگی توسعه پیدا کرده اند، اما پیشرفت های قابل ملاحظه ای در سرعت محاسبات داشته اند، مخصوصاً در مورد توالی هایی که حاوی نواحی همپوشانی دار هستند.[8] معمولاً روش های مبتنی بر HMM به اینگونه کار می کنند که MSA را به صورت یک گراف جهتدار بدون دور نمایش می دهند که شامل یک سری از گره هاست که نشان دهندۀ ستون های محتمل برای یک MSA هستند. در این نحوۀ نمایش دادن ستونی که به طور قطع حفظ شده است (به این معنی که تمام توالی های یک MSA در یک کاراکتر خاص و در یک مکان خاص با هم مشترکند) به عنوان گره ای که به تعداد کاراکترهای ممکن از ستون بعدیِ همترازسازی ارتباط خروجی دارد، کد می شود. بر حسب مدل مارکوف پنهان، وضعیت های مشاهده شده همان ستون های همترازسازی و وضعیت های پنهان معرف اجداد توالی هایی از مجموعۀ درخواستی هستند که مفروض به داشتن نوادگان می باشند. یکی از انواع جستجوی کارآمد برنامه نویسی پویا، معروف به الگوریتم ویتربای، برای همتراز کردن MSA در حال توسعه با توالی های بعدی از مجموعۀ درخواستی به منظور تولید MSA جدید استفاده می شود.[17] برنامه های نرم افزاری متعددی برای انواع روش های مبتنی بر HMM پیاده سازی شده اند و از نظر مقیاس پذیری و کارایی مورد ملاحظه قرار گرفته اند، اگرچه استفادۀ صحیح از HMM به مراتب پیچیده تر از روش های جلوروندۀ معمولی است. ساده ترین این برنامه ها POA(partial-order alignment) است؛ یک روش مشابه اما کلی تر در بسته های SAM (Sequence Alignment and Modeling System) .[17] و HMMER[19] پیاده سازی شده است. SAM به عنوان منبعی برای پیش بینی ساختار پروتئین مورد استفاده قرار می گیرد و از آن در آزمایش های پیش بینی ساختار CASP و توسعۀ پایگاه داده ای از ساختارهای پیش بینی شده در گونه های مخمر S. cerevisiaeکمک گرفته می شود. بستۀ نرم افزاریِ HHsearch[20][21] توالی های پروتئینی ای که از هم دورند را بر اساس مقایسۀ دوبدوی HMM ها پیدا می کند.

الگوریتم ژنتیک و الگوریتم تبرید شبیه سازی شده

از الگوریتم ژنتیک برای تو لید MSA برای شبیه سازی فرآیند تکاملی ای که منجر ایجاد به داده های متنوع و واگرا در مجموعۀ درخواستی شده است، استفاده می شود. این روش یه اینگونه عمل می کند که MSA های ممکن را به چندین بخش تقسیم می کند و مرتباً با ایجاد پرش در جاهای مختلف از این بخش ها آن ها را بازچینی می کند. در طی فرآیند شبیه سازی یک تابع هدف کلی بهینه می شود، بطور کلی این تابع همان تابع "حاصلجمع جفت ها"ست که در قسمت برنامه نویسی پویا معرفی شد و قصد بر این است که مقدار این تابع ماکزیمم شود. تکنیکی برای توالی های پروتئینی در برنامه نرم افزاری SAGA (Sequence Alignment by Genetic Algorithm)[22] و معادل آن برای RNA در RAGA[23] پیاده سازی شده است. تکنیک تبرید شبیه سازی شده با یک MSA موجود که در ابتدا از یک روش دیگر تولید شده است کار را آغاز می کند و با اعمال یک سری بازچینی های طراحی شده سعی در یافتن فضاهای همترازسازی بهتری نسبت به آنچه که همترازسازی ورودی در حال حاضر اشغال کرده است، می کند. روش تبرید شبیه سازی شده نیز همانند الگوریتم ژنتیک یک تابع هدف را (مثل تابع حاصلجمع جفت ها) ماکزیمم می کند. این روش در برنامۀ MSASA (Multiple Sequence Alignment by Simulated Annealing)[24] پیاده سازی شده است.

موتیف یابی

موتیف یابی یا تحلیل پروفایل، روش یافتن توالی های موتیف در MSA های کلی است که هم روشی برای تولید MSA های بهتری و هم وسیله ای برای و هم وسیله ای برای تولید ماتریس نمره دهی برای جستجوی موتیف های مشابه در سایر توالی هاست. در تحلیل پروفایل استاندارد، برای هر کاراکتر ممکن و هم پرش درایه ای در ماتریس اختصاص داده می شود.[8] از طرف دیگر، همترازسازی های الگویابی آماری، می توانند به جای یافتن مشتقات MSA موتیف هایی که پیشرو هستند را بیابند. در مواقعی که مجموعۀ درخواستی صرفاً شامل تعداد کمی توالی یا توالی های به شدت به هم وابسته هست، سودونات اضافه می کنند تا توزیعی که در ماتریس نمره دهی وجود دارد نرمال شود. تحلیل بلاک روشی برای موتیف یابی است که موتیف ها را محدود به نواحی بدون پرش در همترازسازی می کند. بلاک ها می توانند از روی MSA تولید شوند یا از روی توالی های همتراز نشده استخراج شوند.[25] تطابق الگوی آماری هم توسط الگوریتم ماکزیمم سازی انتظار و هم توسط نمونه برداری گیبز پیاده سازی شده است. یکی از معروف ترین ابزارهای موتیف یابی MEME می باشد که از ماکزیمم سازی انتظار و مدل مارکوف های مخفی استفاده می کند تا موتیف هایی را تولید کند که از آن پس به همراه MAST که در مجموعۀ MEME/MAST[26][27] موجود است برای ابزارهای جستجو استفاده شود.[عکس]

ابزارهای تصویری و ابزارهای ویرایش

استفاده از روش های اکتشافی برای همترازسازی چند توالی به این معنی است که برای هر مجموعۀ دلخواه از پروتئین ها همیشه این شانس وجود دارد که همترازسازی با خطا همراه باشد. ناظران همترازسازی چند توالی این امکان را فراهم کرده اند که همترازسازی ها به صورت شهودی و بصری قابل بازبینی باشند. علاوه براین برخی این قابلیت را فراهم کرده اند که بتوان خطاها را (معمولاً خطاهای کوچک و جرئی) را اصلاح کرد.[28]

کاربرد در فیلوژنتیک ها

همترازسازی چند توالی می تواند در ساخت درخت فیلوژنتیک استفاده شود.[29] به دو دلیل این کار امکانپذیر است. دلیل اول اینکه نواحی کارکردی که در توالی های تفسیر شده شناخته شده هستند می توانند برای همترازسازی توالی های تفسیر نشده به کار گرفته شوند. دلیل دیگر این است که نواحی حفظ شده ای که می دانیم از لحاظ کاکردی مهم هستند را می توان یافت. بنابراین این امکان فراهم می شود که همترازسازی چند توالی برای تحلیل و یافتن روابط تکاملی بین توالی ها استفاده شود.جهش های نقطه ای و درج و حذف ها می توانند معلوم شوند.

همچنین ببینید

شاخه‌بندی

هم ترازسازی درختی تعمیم یافته فیلوژنتیک نرم افزار همترازسازی توالی ناظران همترازسازی چند توالی همترازسازی ساختاری

منابع

  1. [1]
  2. [2]
  3. [3]
  4. [4]
  5. [5]
  6. [6]
  7. [7]
  8. [8]
  9. [8]
  10. [9]
  11. [10]
  12. [8]
  13. [13]
  14. [14]
  15. [8]
  16. [8]
  17. [15]
  18. [16]
  • Duret, L. (2000). "Multiple alignment for structural functional or phylogenetic analyses of homologous sequences". In D. Higgins and W. Taylor (ed.). Bioinformatics sequence structure and databanks. Oxford: Oxford University Press. {{cite book}}: Unknown parameter |coauthors= ignored (|author= suggested) (help)
  • Notredame, C. (2002). "Recent progresses in multiple sequence alignment: a survey". Pharmacogenomics. 31 (1): 131–144. doi:10.1517/14622416.3.1.131. PMID 11966409.
  • Thompson, J. D. (1999). "A comprehensive comparison of multiple sequence alignment programs". Nucleic Acids Research. 27 (13): 12682–2690. doi:10.1093/nar/27.13.2682. PMC 148477. PMID 10373585. {{cite journal}}: Unknown parameter |coauthors= ignored (|author= suggested) (help)
  • Wallace, I.M. (2005). "Multiple sequence alignments". Curr Opin Struct Biol. 15 (3): 261–266. doi:10.1016/j.sbi.2005.04.002. PMID 15963889. {{cite journal}}: Unknown parameter |coauthors= ignored (|author= suggested) (help)
  • Notredame, C (2007). "Recent evolutions of multiple sequence alignment algorithms". PLOS Computational Biology. 8 (3): e123. doi:10.1371/journal.pcbi.0030123. PMC 1963500. PMID 17784778.

پیوندهای خارجی

Lecture notes, tutorials, and courses