ماتریس‌های فاصله در فیلوژنی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

ماتریس‌های فاصله در فیلوژنی طبق همان روش که فاصلهٔ غیر پارامتری قبلاً در میان داده‌های phenetic و به شکل ماتریسی از فاصله‌های دوتایی استفاده شده‌است به کار می‌رود. این فاصله‌ها بعداً طوری تطبیق داده می‌شود که بتواند یک درخت (یک فیلوگرام با طول شاخه‌های اطلاعاتی) تولید کند.ماتریس فاصله را می‌توان از منابع مختلفی بدست آورد.

به طور مثال: فاصلهٔ اندازه گیری شده (مثلا از مطالعات ایمونولوژیکی)، تحلیل‌های مورفومتریک و فرمول‌های فاصله گذاری مختلف (مانند فاصلهٔ اقلیدسی) و پیاده کردن ان بر روی کاراکتر‌های مورفولوژیکی گسسته، یا فاصله‌های ژنتیکی برامده از توالی قطعات محدود. در مورد داده‌های کاراکترهای فیلوژنتیکی فاصلهٔ خام را میتوان به سادگی و با شمارش تعداد دوتایی‌های متمایز در نواحی کاراکتری محاسبه کرد (فاصلهٔ منهتن).

روش‌های ایجاد ماتریس فاصله[ویرایش]

روش‌های یافتن ماتریس فاصله در تحلیل‌های فیلوژنتیکی متّکی بر اندازه گیری فاصلهٔ ژنتیکی بین توالی‌های دسته بندی شده‌است بنابراین پیش نیاز این کار یک تطابق چندگانه توالی‌ها (multiple sequence alignment) است.فاصله معمولی به عنوان تابعی از تمایزها (mismatch) تعریف میشود و شکاف‌ها (gap) نیز به طور دلخواه حذف یا به عنوان تمایز در نظر گرفته میشود[۱].

روش‌های فاصله‌گذاری سعی شان بر اینست که ماتریسی بسازند که فاصلهٔ هر جفت از توالی‌ها را مشخص کند. با استفاده از این اطلاعات درخت فیلوژنتیکی ساخته میشود که در ان توالی‌هایی که شباهت بسیار زیادی به هم دارند تحت ریشه‌های مشترک قرار میگیرند و طول شاخه‌ها نیز نمایانگر فاصلهٔ بین توالی هاست. ماتریس‌های فاصله بنابر الگوریتمی که برای ساختن شان به کار میرود میتوانند هم درخت‌های ریشه دار بسازند و هم درخت‌های بدون ریشه.

آن‌ها همچنین مکررا به عنوان پایه‌ای برای انواع روش‌های پیش رونده (progressive) یا تکراری (iterative) تطابق چندگانه توالی‌ها (MSA) به کار میرود.ضعف اصلی روش‌های ماتریس فاصله عدم توانایی‌شان برای استفاده مناسب از اطلاعات مربوط به نواحی با تغییر بالای موضعی است که در میان زیر درخت‌های چندگانه مشاهده میشوند.[۲]

اتصال مجاور[ویرایش]

روش‌های اتصال مجاور (N-J) تکنیک‌های عمومی خوشه بندی داده‌ها را با استفاده از فاصلهٔ ژنتیکی به عنوان یک متریک خوشه بندی، در مورد آنالیز توالی‌ها استفاده می‌کند. روش سادهٔ اتصال مجاور یک درخت بدون ریشه تولید میکند اما در این روش یک نرخ تکامل ثابت (ساعت مولکولی) در طی نسل‌های مختلف در نظر گرفته نمیشود. اما در روش UPGMA (روش جفت گروه بدون وزن با میانگین حسابی) درخت‌های ریشه دار تولید میشود و فرض را بر ثابت بودن نرخ تکامل میگذارند؛ در واقع درختی فرامتریک تولید میشود که در ان فاصله از ریشه تا هر سرشاخه یکسان است.

روش فیچ-مارگولیش[ویرایش]

روش فیچ-مارگولیش یک متد کمترین مربعات وزندار را برای خوشه بندی بر مبنای فاصلهٔ ژنتیکی به کار می‌برد[۳]. توالی‌های بسیار نزدیک به هم در این روش وزن بیشتری میگیرند تا افزایش خطایی که در اندازه گیری فاصلهٔ بین توالی‌های دورتر رخ میدهد را جبران کند. داده‌هایی که به عنوان ورودی الگوریتم استفاده میشوند را باید پیش از استفاده نرمال کرد تا مانع بروز مشکلاتی شود که در محاسبه رابطه بین گروه‌های نزدیک و دور رخ میدهد.فاصله‌هایی که در این روش محاسبه میشوند باید خطی باشند، خطی بودن در اینجا به این معنی است که مقدار مورد انتظار برای مجموع طول دو شاخه جدا باید برابر با مجموع مقدار مورد انتظار طول انها باشد، ویژگی ای که تنها زمانی در مورد توالی‌های زیستی اعمال میشود که انها برای امکان جهش بازگشتی تطبیق داده شده باشند.

این تصحیح از طریق ماتریس‌های جانشانی مانند انچه که از مدل تکاملی DNA، منسوب به junkes-cantor بدست می‌اید انجام میشود. تصحیح فاصله‌ها عملا زمانی مورد نیاز است که نرخ تکامل در میان شاخه‌های مختلف متفاوت باشد.[۴]

معیار کمترین مربعات که در این روش استفاده میشود نسبت به روش اتصال مجاور از صحت بیشتر اما کارایی کمتری برخوردار است. در مواردی که هزینه‌های محاسباتی افزایش می‌یابد میتوان از روش‌های اصلاحی دیگری نیز برای تصحیح همبستگی فاصله‌هایی که از توالی‌های بسیار نزدیک بدست می‌ایند استفاده کرد. یافتن درخت بهینهٔ کمترین مربعات در هر صورت یک مسالهٔ NP-کامل است[۵] به همین دلیل روش‌های هیوریستیکی مشابه آنچه در تحلیل‌های ماکسیمم-پارسیمونی استفاده میشود در اینجا نیز برای جستجو در فضای درخت‌ها بکار میروند.

استفاده از اطلاعات تاریخ تکاملی[ویرایش]

اطلاعات مستقل دربارهٔ روابط بین توالی‌ها یا گروه‌ها میتواند کمک کند تا حجم جستجو در فضای درخت‌ها کاهش یابد. کاربرد استاندارد روش ماتریس فاصله ما را با مساله وجود حداقل یک توالی outgroup که فاصلهٔ دوری با توالی‌های فضای جستجو دارد روبرو میکند.[۶] این کاربرد میتواند به عنوان یک نوع کنترل تجربی محسوب شود. اگر outgroup به درستی انتخاب شده باشد انگاه شامل یک فاصله ژنتیکی بسیار بزرگ خواهد بود و بنابر این یک طول شاخهٔ بسیار بزرگتر نسبت به سایر توالی‌ها خواهد داشت و این مورد در همسایگی ریشهٔ یک درخت ریشه دار مشاهده خواهد شد. انتخاب یک outgroup مناسب مستلزم انتخاب یک توالی است که فاصلهٔ میانه‌ای را با توالی‌های مورد نظر داشته باشد داشتن رابطهٔ بیش از حد نزدیک غرض انتخاب outgroup را نقض میکند و همچنین فاصلهٔ بیش از حد دود باعث ورود خطا در تحلیل میشود[۷] باید احتیاط‌های لازم لحاظ شود تا موقعیت‌هایی پیش نیاید که در ان توالی‌ها از گونه‌هایی انتخاب شده‌اند که فاصلهٔ دوری از هم دارند اما ژنی که توسط توالی‌ها کد میشود در طی تغییرات نسل محفوظ مانده‌است. انتقال افقی ژن به ویژه بین انشعابات باکتریایی میتواند کاربرد outgroup را مختل کند.

نقاط ضعف روش‌های گوناگون[ویرایش]

در حالت کلّی فاصلهٔ دوتایی یک تخمین دست پایین از فاصله مسیری بین taxa‌های روی یک فیلوگرام است. فاصلهٔ دوتایی در قیاس با فاصلهٔ جغرافیایی تقریب خامدستانه تری را ارائه میکند: فاصله بین دو شهر ممکن است روی خط مستقیم ۱۰۰ کیلومتر باشد اما یک مسافر ممکن است مجبور باشد ۱۲۰ کیلومتر را بین دو شهر طی کند و ان هم به خاطر پیچ و خم‌های جاده و ایستکاههای متعدد قطار و.... در بین جفت‌های یک taxa برخی تغییرات در بین نسل‌های گذشته ممکن است قابل ردگیری نباشد چون تغییرات بعدی شواهد موجود را از بین برده‌است. این مشکل در میان همهٔ تخمین‌های فیلوژنتیک مشترک است اما در مورد روش‌های فاصله‌ای بسیار حادتر است، به این خاطر که تنها دو نمونه برای محاسبه هر فاصله به کار میرود، بقیه روش‌ها از شواهد این تغییر پنهان که ممکن است در taxa‌های دیگری که در مقایسهٔ دوتایی لحاظ نشده‌اند وجود داشته باشند سود میبرند.

در مورد داده‌های توالی امینو اسید‌ها و نوکلئوتید اسیدها مدل‌های اماری مشابه انچه که در روش درست نمایی بیشینه برای مدل کردن تغییرات هسته‌ای بکار میروند قابل استفاده‌است تا فاصله‌ها تصحیح شوند و انالیز داده‌ها به یک روش نیمه پارامتری تحویل شود.

الگوریتم‌های سادهٔ بسیاری موجودند تا مستقیما از روی فاصله‌های دوتایی بتوان یک درخت تولید کرد، روشهایی چون UPGMA و اتصال مجاور اما این روش‌ها لزوما بهترین درخت را مطابق با داده‌های موجود ارائه نمیکنند. برای پیشگیری از پیچیدگی‌های ذکر شده و به منظور یافتن بهترین درخت برای داده‌ها تحلیل فاصله میتواند یک پروتکل جستجوی درخت را که مستلزم براورده کردن معیار روشنی برای بهینه بودن است در بر بگیرد. ۲ معیار بهینگی معمولا در این موارد بکار میروند: تکامل کمینه و استنباط کمترین مربعات. روش کمترین مربعات بخشی از یک کلاس گسترده تر از روش‌های رگرسیون پایه است که در اینجا به خاطر سادگی به طور فشرده اورده شده‌است. این فرمول رگرسیون با برازش یک درخت به فاصله‌های تجربی تفاوت بین فاصله‌های مسیری در طول درخت و فاصله‌های جفتی در داده‌ها را مینیمم می‌کند. در مقابل تکامل کمینه درخت با کوتاهترین مجموع طول شاخه‌ها را میپذیرد و از اینروست که مقدار کل پذیرفته شده برای تکامل را مینیمم می‌کند.

تکامل کمینه به شدت وابسته به پارسیمونی است و تحت شرایط مشخص تحلیل فاصلهٔ تکامل کمینه بر پایهٔ یک مجموعه داده از کاراکتر‌های گسسته همان درختی را پیشنهاد میکند که تحلیل‌های پارسیمونی مناسب از داده‌های مشابه تولید می‌کنند.

تخمین فیلوژنی با استفاده از روش‌های فاصله بحث‌های زیادی را برانگیخت. UPGMA یک درخت فرامتریک (درختی که طول تمام مسیرها از ریشه به سرشاخه‌ها یکسان باشد) را مد نظر میگیرد. اگر نرخ تکامل در تمام نسل‌های موجود در نمونه یکسان باشد (یک ساعت مولکولی) و اگر درخت به طور کامل متوازن باشد انگاه UPGMA نباید یک نتیجهٔ پیشقدر دار را تولید کند. این انتظارات در اکثر مجموعه‌های داده دیده نمیشود و با وجود اینکه UPGMA تا حدی برای برطرف کردن این نقایص توانایی دارد اما معمولا ان را برای تخمین فیلوژنی بکار نمیبرند.مزیت UPGMA اینست که سریعست و میتواند با بسیاری از توالی‌ها کار کند.

اتصال مجاور یکی از انواع روش‌های تجزیهٔ ستاره‌ای است و همانند روش‌های هیوریستیکی معمولا دارای کمترین محاسبات است. این روش در جای خود بسیار مورد استفاده‌است و در واقع بطور مکرر برای تولید دخت‌های قابل اتکا بکار میرود این روش فاقد هر گونه ترتیبی برای جستجوی درختان و هر گونه معیاری برای بهینگی است به همین دلیل هیچ تضمینی وجود ندارد که درختی که در این روش تولید میشود بهترین برازش را بر داده‌های موجود داشته باشد. در واقع باید از اتصال همسایه برای تولید یک درخت اغازی برای یک روش تحلیلی مناسبتر استفاده کرد، انگاه یک روش جستجوی درخت با معیار بهینگی را بکار برد تا بطور قطعی جستجو به بازیابی بهترین درخت ختم شود.

بسیاری از دانشمندان از روش‌های فاصله پرهیز میکنند در بسیاری از موارد این به خاطر دلایل مبهم فلسفی است یک دلیل اینست که فاصله‌ها ذاتا phenetic هستند تا فیلوژنتیک، به این ترتیب که انها شباهت‌های ذاتی را از شباهتهای اکتسابی متمایز نمیکنند.این انتقاد کاملا هم منصفانه نیست: بسیاری از عملیات های اخیر استنباط های فیلوژنتیک بیزی، درست نمایی بیشینه و پارسیمونی مدل های با زمان برگشت پذیر را به کار میبرند و از اینرو هیچتطابقی را میان حالتهای اکسابی و اجدادی ایجاد نمیکنند.تحت این مل ها درخت بصورت بدون ریشه تخمین زده میشودو ریشه گذاری و تعریف قطب ها پس از تحلیل انجام میشود. تفاوت اولیه ی این روش ها با روش فاصله در اینست که روشهای بیزی، درست نمایی بیشینه و پارسیمونی کاراکتر ها را جداگانه بر درخت ها برازش میکنند در صورتی که روش فاصله همه ی کاراکتر ها را یکجا بکار میبرد و در واقع هیچ چیز ذاتا کمتر فیلوژنتیک در این روش وجود ندارد. از نگاه عملی تر بیشتر به این خاطر از روش های فاصله پرهیز میشود که رابطه ی بین کاراکترهای انفرادی و درخت در طی فرایند تقلیل کاراکترها به فاصله از بین میرود به این خاطر که این روش ها مستقیما داده های کاراکتری را بکار نمیبرند واز اینرو اطلاعات موجد در کاراکتر ها تا حدر در طی فراین مقایسه ی جفتی از بین میروند. همچنین برخی روابط مختلط فیلوژنتیکی میتواند فاصله های پیشقدر دار تولید کند. در هر فیلوگرامی طول شاخه ها را باید تخمین دست پایین گرفت زیرا برخی تغییرات به خاطر انقراض برخی گونه ها یا دلایل دیگر قابل شناسایی نیستند. در هر حال اگر داده های حاصل از فاصله های ژنتیکی توسط مدل های اماری مورد استفاده برای تکامل تصحیح شده باشند میتوان به اسانی انها را به هر درخت دیگری که توسط تحلیل داده های مشابه با روش درست نمایی بیشینه تولید شده اضافه شوند. و این بدین خاطر است که فاصله های جفتی مستقل نیستند؛ هر شاخه روی درخت در اندازه گیری فاصله های تمام taxa هایی که جدایشان میکند نمایان میشود. هر خطای نتیجه گیری ناشی از کاراکتر های شاخه که ممکن است باعث اختلال در فیلوژنی شود ( مانند تغییرات تصادفی، تغییر در پارامتر های تکاملی یک طول غیر نرمال در شاخه ها) از طریق تمام اندازه گیری های فاصله مرتبط تکثیر میشود. انگاه ماتریس فاصله ممکن است یک درخت کمتر بهینه را برازش کند. علی رغم همه ی این مشکلات روش های فاصله بسیار سریع هستند و معمولا تخمین های معقولی از فیلوژنی تولید میکنند، همچنین انه مزیت قطعی بر روش هایی دارند که داده های کاراکتری را مستیما استفتده میکنند. و قابل توجه است که روش های فاصله بکارگیری داده هایی که ممکن است به اسانی به داده های کاراکتری قابل تبدیل نباشند را ممکن میسازد نظیر ازمایش های پیوند DNA-DNA . برای برخی روش های تخمین شبکه ای ( به طور ویژ neighbor net ) مجرد سازی اطلاعات مربوط به کاراکتر های انفرادی در داده های فاصله ای یک مزیت است. زمانی که کاراکتر به کاراکتر پیش میرویم تناقضات بین کاراکتر و درخت که ناشی از شبکه بندی است را نمیتوان به طور قطع ناشی از تشابه ساختمانی دانست یا به بروز خطا اما معمولا این تناقض ها پیش از انکه داده ها پیشقدر دار شوند مربوط به خطا یا تشابه ساختمانی نیستند و معمولا به شبکه بندی مربوط میشود. روش های فاصله گذاری بطور عمده در بین گروهی از متخصصان سیستمهای مولکولی رایج است اما با رشد فزاینده ی روش های کاراکتر پایه برخی مزایای روش فاصله گذاری رو به کمرنگ شدن دارند؛ با این وجود مزایای چون پیاده سازی تقریبا همزمان NJ، توانایی همراه کردن یک مدل تکاملی با یک تحلیل نسبتا سریع، روش های تخمین شبکه ای و مزایای دیگر تضمین میکند که همچنان برای مدتی طولانی روش های فاصله گذاری در کانون توجه باشند.

همچنین ببینید[ویرایش]

List of phylogenetics software

منابع[ویرایش]

  1. Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
  2. Felsenstein J. (2004). Inferring Phylogenies Sinauer Associates: Sunderland, MA.
  3. Fitch WM; Margoliash E (1967). «Construction of phylogenetic trees». Science 155 (760): 279–284. doi:10.1126/science.155.3760.279. PMID 5334057.
  4. Felsenstein J. (2004). Inferring Phylogenies Sinauer Associates: Sunderland, MA.
  5. Day, WHE. (1986). Computational complexity of inferring phylogenies from dissimilarity matrices. Bulletin of Mathematical Biology 49:461-7.
  6. Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
  7. Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.