همترازسازی توالی
در بیوانفورماتیک، همتراز کردن توالی (به انگلیسی: Sequence Alignment) به روشهای مرتب کردن توالیهای آرانای، دیانای و پروتئین گفته میشود به طوری که مکانهای مشابهت بین توالیها را مشخص کند. این مکانهای مشابهت بین دو یا چند توالی، میتواند نشانگر ارتباط عملکردی، ساختاری و یا تکاملی مابین توالیها باشد. توالی یک دیانای یا آرانای، دنبالهای از نوکلئوتیدهای تشکیل دهندهی آن و توالی یک پروتئین، دنبالهای از پس ماندههای تقطیر اسیدهای آمینه آن است. توالیهای همتراز شده را معمولا به شکل سطرهایی زیر هم درون یک ماتریس نشان میدهند. در صورت لزوم در برخی مکانهای توالی بین نوکلئوتیدها(پس ماندهها) فاصله اضافه میکنند تا در چند ستون پی در پی کاراکترهای یکسان زیر هم قرار بگیرند.
همتراز کردن توالیها برای دنبالههای غیر زیستی مانند دنبالههای موجود در زبانهای طبیعی و یا دادههای مالی نیز استفاده میشود.
محتویات |
تفسیر زیستی [ویرایش]
اگر دو توالی که همتراز کردن بر روی آنها صورت میگیرد دارای یک جد مشترک باشند، پس از همتراز کردن، مکانهایی که دو دنباله با یکدیگر مطابقت ندارند را میتوان به عنوان جهش نقطهای تفسیر کرد. همچنین فاصلهها را میتوان به عنوان جهش رخنهای یا جهش حذفی در یکی یا هر دو از اجداد در هنگام انشعاب یافتن از یکدیگر تفسیر کرد. در همتراز کردن توالیهای پروتئینی، درجه شباهت بین اسیدهای آمینه یک ناحیه خاص در توالی را میتوان به عنوان مقیاسی برای اینکه یک منطقه چقدر بین اجداد حفظ شده است در نظر گرفت. عدم وجود جانشینی و یا وجود تنها تعدادی جانشینی بسیار حفظ شده(جانشینی اسیدهای آمینهای که زنجیرههای جانبیاشان خواص بیوشمیایی مشابه دارند) در ناحیهای خاص از توالی، این ناحیه را به عنوان ناحیهای مهم از لحاظ ساختاری یا کارکردی پیشنهاد میدهد. هر چند در دیانای و آرانای بازهای نوکلئوتیدها نسبت به آمینواسیدها بیشتر به هم شباهت دارند، جفت بازهای حفظ شده نیز میتوانند نشان دهندهی وظیفهی ساختاری یا کارکردی مشابه باشند.
روشهای همتراز کردن [ویرایش]
توالی های بسیار کوچک یا بسیار مشابه می توانند به صورت دستی همتراز شوند. اما، اکثر مسائل جالب توجه نیاز به همتراز کردن توالی های طولانی، بسیار متغیر یا با تعداد بسیار زیاد دارند که نمی توانند تنها توسط تلاش انسانی همتراز شوند. در عوض، دانش انسان، در ساختن الگوریتمهایی که همتراز کردن توالیها را با کیفیت بالا را انجام میدهند، و گاهی در تنظیم نتایج نهایی برای منعکس ساختن الگوهایی که نمایش آنها به صورت الگوریتمی سخت است ( مخصوصا در مورد توالیهای نوکلوئوتیدی )، به کار می رود. رویکردهای محاسباتی برای همتراز کردن توالیها به طور کلی در دو دسته جا می گیرد: همتراز کردن سراسری و همتراز کردن محلی. محاسبه همترازی سراسری، شکلی از بهینه سازی سراسری است که به همترازی فشار می آورد تا در کل طول توالیهای مورد جستجو گسترده شود. بلعکس، همتراز کردن محلی، نواحی مشابه درون توالیهای بلند را که معمولا در طول توالی بسیار متفاوت اند، تشخیص میدهد. معمولا همتراز کردن محلی ترجیح داده می شود، اما محاسبهاش میتواند به علت مشکلات تشخیص نواحی مشابه، مشکل تر باشد. الگوریتم های محاسباتی گوناگونی برای مساله همتراز کردن توالیها به کار رفته است، که شامل روشهای آهسته ولی بهینه کنندهای مانند برنامه ریزی پویا، و روشهای کارآمد اما نه دارای الگوریتمهای کاملا ابتکاری یا روشهای احتمالاتی، که برای جستجو در پایگاه دادههای در مقیاس بزرگ به کار می رود، میباشد.
شیوههای نمایش [ویرایش]
به طور معمول همترازی توالیها هم به صورت گرافیکی و هم در قالب متنی ارائه می شود. در اکثر روشهای نمایش همترازی توالیها، توالیها به صورت سطری مرتب و نوشته می شوند، به طوری که در نتیجه، پس ماندهای همتراز شده درستونهای پشت سر هم ظاهر می شوند. در قالبهای متنی، ستونهای همتراز شده شامل کاراکترهای یکسان یا مشابه، با سیستمی از سمبلهای محافظت شده نمایش داده می شوند. همان طور که در تصویر بالا می بینید، سمبل ستاره و سمبل پایپ برای نشان دادن یکسان بودن دو ستون استفاده شده است؛ بقیه نشانه های کمتر معمول شامل دو نقطه برای جانشینی محافظت شده و نقطه برای جانشینی نیمه محافظت شده است. بسیاری از برنامههای مشاهده توالی از رنگها نیز برای نمایش اطلاعات درباره ویژگیهای عناصر توالی به صورت تکی استفاده می کند؛ در توالیهای دیانای و آرانای، این کار معادل نشان دادن هرنوع نوکلئوتید با یک رنگ ویژه آن میباشد. در همترازیهای پروتئینها، مانند تصویر بالا، رنگ کردن معمولا برای نشان دادن خصوصیات اسیدهای آمینه استفاده میشود که به تشخیص جانشینیهای حفظ شدهی یک آمینو اسید مشخص کمک میکند. برای چند توالی با هم، آخرین سطر در هر ستون معمولا توالی توافقی است که توسط همترازی تعیین شده است؛ توالی توافقی همچنین معمولا در قالب گرافیکی با یک لوگو که اندازه هرحرف نوکلئوتید یا اسید آمینه در آن متناظر با درجه حفاظت شدگی آن است، نمایش داده می شود.
همترازی توالیها میتواند به شکلهای گوناگونی در قالبهای فایلهای متنی ذخیره شود، که بسیاری از این قالبها در آغاز از برنامههای همتراز کردن خاصی تولید شده اند. اکثر ابزارهای مبتنی بر وب تعداد محدودی قالب ورودی و خروجی را پشتیبانی میکنند؛ مانند قالب FASTA و قالب ژن بانک، و خروجیاشان نیز به سادگی قابل ویرایش نیست. چند برنامه نیز برای تبدیل قالبهای مختلف به یکدیگر موجود است، مانند READSEQ یا EMBOSS که دارای واسط کاربر گرافیکی یا نوشتاری هستند. همچنین بستههای برنامه سازی مانند BioPerl و BioRuby توابعی را برای انجام این کار فراهم کردهاند.
همتراز کردن سراسری و همتراز کردن محلی [ویرایش]
همتراز کردن سراسری، که تلاش می کند هر پس ماندی را در هر توالی همتراز کند، وقتی توالیهای مجموعهی جستجو مشابه هستند و کاملا اندازه یکسانی دارند، بهترین کاربرد را دارد( این به معنی آن نیست که همترازی سراسری در فواصل ( گپ) نمی تواند پایان یابد). یک تکنیک عمومی همتراز کردن سراسری، الگوریتم نیدلمن–وانچ است، که بر پایه برنامه ریزی پویا است. همتراز کردن محلی برای توالی های غیر مشابه که مظنون به داشتن نواحی همانندی یا داشتن موتیفهای مشابه درون فضای بزرگتر توالیاشان هستند، مفیدتر می باشد. الگوریتم اسمیت-واترمن یک روش عمومی همتراز کردن محلی است که آن نیز برپایه برنامه ریزی پویا است. برای توالیهایی که به اندازه کافی شبیه باشند، تفاوتی بین همترازی محلی و سراسری وجود ندارد.
روشهای ترکیبی، که با عنوان روشهای نیمه سراسری یا "سرامحلی" شناخته می شوند، تلاش میکنند تا بهترین همترازی ممکن که شامل ابتدا و انتهای یکی از توالیها باشد را بیابند. این ایده می تواند به ویژه وقتی پایین دست یک توالی با بالا دست توالی دیگر همپوشانی دارد، مفید باشد. در این حالت، نه همتراز کردن سراسری و نه محلی کاملا مناسب نیست: در حالی که همتراز کردن محلی نمی تواند کاملا منطقه همپوشانی را بپوشاند، همترازی سراسری تلاش می کند تا بر همتراز کردن فشار آورد تا در آنسوی منطقهی همپوشانی گسترش یابد.
همتراز کردن دوبدو [ویرایش]
روشهای همتراز کردن دوبدو، برای پیدا کردن بهترین همترازی جور تکهای محلی یا سراسری دو توالی مورد استفاده قرار میگیرد. همتراز کردن دوبدو میتواند تنها بین دو توالی در یک زمان مورد استفاده قرار گیرد، اما از لحاظ محاسباتی کارآمد است و معمولا برای روش هایی که نیاز به دقت بسیار زیادی ندارند (مانند جستجوی یک پایگاه داده برای یافتن توالیهای با تشابه بالا با توالی مورد جستجو) مورد استفاده قرار میگیرد. سه روش اولیه برای تولید همترازی دوبدو؛ روش ماتریس–نقطه، برنامه ریزی پویا، و روشهای کلمهای است؛ البته تکنیکهای همتراز کردن چندین توالی می تواند توالیهای دوبدو را نیز همتراز کند. اگرچه هر روش، نقاط قوت و ضعف خود را دارد، هر سه روش همتراز کردن دوبدو دارای مشکلاتی در توالی های تکرار شونده بالا با محتوای اطلاعاتی کم میباشند-مخصوصا جایی که تعداد تکرارها در دوتوالیای که قرار است همتراز شوند متفاوت باشند. یک روش برای تعیین سودمندی یک همترازی دوبدو داده شده "حداکثر جفتهای یکتا"، یا بزرگترین زیر دنبالهای که در هر دو توالی اتفاق می افتد، میباشد. از توالیهای با حداکثر جفتهای یکتای بلندتر، نوعا ارتباط نزدیکتری نتیجه میشود.
روشهای ماتریس-نقطه [ویرایش]
رویکرد ماتریس–نقطه، که یک خانواده از همترازیها برای مناطق هر توالی تولید می کند، از نظر مقداری و مفهومی ساده است، با این وجود برای آنالیز در یک مقیاس بزرگ، زمان بر است. در غیاب نویز، میتوان به سادگی برخی از ویژگیهای توالی را-مانند درجها، حذفها، تکرارها، یا تکرارهای معکوس شده- به صورت دیداری در یک نمودار ماتریس-نقطهای تشخیص داد. برای ساخت یک طرح ماتریس-نقطه، دو توالی در امتداد بالاترین سطر و چپترین ستون از یک ماتریس دو بعدی نوشته میشود و سپس در هر مکانی که دو کاراکتر، سطر و ستون آنها با یکدیگر منطبق بود، یک نقطه گذاشته می شود. بعضی از پیادهسازیهای این روش، اندازه و شدت هر نقطه را بسته به درجه تشابه دو کاراکتر تغییر میدهند تا جانشینیهای حفظ شده را معین کنند. در این روش، نمودار نقطهای توالیهای بسیار نزدیک به هم، به صورت یک خط در امتداد قطر اصلی ماتریس ظاهر می شود.
مشکلات نمودارهای نقطهای، به عنوان یک تکنیک نمایش اطلاعات، شامل مواردی چون: نویز، کمبود وضوح، عدم درک مستقیم وشهودی، و دشواری استخراج خلاصه آماری جورشدهها و مکانهای جور روی دو توالی است. همچنین فضای هدر رفته بیشتری در جاییکه اطلاعات جورها در طول قطر تکثیرشدهاند و اکثر فضای نمودار خالی است یا توسط نویز اشغال شده است، وجود دارد؛ و نهایتا، نمودارهای نقطهای برای دو توالی محدود شده اند. هیچ کدام از این محدودیت ها در دیاگرامهای همترازی Miropeats وجود ندارد اما آنها نیز عیب های خاص خود را دارند.
نمودارهای نقطهای همچنین میتوانند برای تعیین تکرار شوندگی در یک توالی منفرد استفاده شوند. یک توالی می تواند با خودش همتراز شود و نواحی که تشابهات مهمی را مشترک هستند به صورت خطوطی خارج از قطر اصلی ظاهر می شوند. این اثر می تواند هنگامی که پروتئینی دارای چند حوزهی مشابه است اتفاق بیافتد.
منبع [ویرایش]
مشارکتکنندگان ویکیپدیا، «Sequence alignment»، ویکیپدیای انگلیسی، دانشنامهٔ آزاد (بازیابی در ۲۶ ژوئن ۲۰۱۱).
