ماتریس‌های فاصله در تبارزایی

ماتریس‌های فاصله در تبارزایی طبق همان روش که فاصلهٔ ناپارامتری قبلاً در میان داده‌های phenetic و به شکل ماتریسی از فاصله‌های دوتایی استفاده شده‌است به کار می‌رود. این فاصله‌ها بعداً طوری تطبیق داده می‌شود که بتواند یک درخت (یک فیلوگرام با طول شاخه‌های اطلاعاتی) تولید کند. ماتریس فاصله را می‌توان از منابع مختلفی به دست آورد.

به‌طور مثال: فاصلهٔ اندازه‌گیری شده (مثلاً از مطالعات ایمونولوژیکی)، تحلیل‌های مورفومتریک و فرمول‌های فاصله‌گذاری مختلف (مانند فاصلهٔ اقلیدسی) و پیاده کردن ان بر روی کاراکترهای مورفولوژیکی گسسته، یا فاصله‌های ژنتیکی برآمده از توالی قطعات محدود. در مورد داده‌های کاراکترهای فیلوژنتیکی فاصلهٔ خام را می‌توان به سادگی و با شمارش تعداد دوتایی‌های متمایز در نواحی کاراکتری محاسبه کرد (فاصلهٔ منهتن).

روش‌های ایجاد ماتریس فاصله

روش‌های یافتن ماتریس فاصله در تحلیل‌های فیلوژنتیکی متّکی بر اندازه‌گیری فاصلهٔ ژنتیکی بین توالی‌های دسته‌بندی شده‌است بنابراین پیش نیاز این کار یک تطابق چندگانه توالی‌ها (multiple sequence alignment) است. فاصله معمولی به عنوان تابعی از تمایزها (mismatch) تعریف می‌شود و شکاف‌ها (gap) نیز به‌طور دلخواه حذف یا به عنوان تمایز در نظر گرفته می‌شود.^[۱]

روش‌های فاصله‌گذاری سعی شان بر اینست که ماتریسی بسازند که فاصلهٔ هر جفت از توالی‌ها را مشخص کند. با استفاده از این اطلاعات درخت فیلوژنتیکی ساخته می‌شود که در ان توالی‌هایی که شباهت بسیار زیادی به هم دارند تحت ریشه‌های مشترک قرار می‌گیرند و طول شاخه‌ها نیز نمایانگر فاصلهٔ بین توالی هاست. ماتریس‌های فاصله بنابر الگوریتمی که برای ساختن شان به کار می‌رود می‌توانند هم درخت‌های ریشه دار بسازند و هم درخت‌های بدون ریشه.

آن‌ها همچنین مکرراً به عنوان پایه‌ای برای انواع روش‌های پیش رونده (progressive) یا تکراری (iterative) تطابق چندگانه توالی‌ها (MSA) به کار می‌رود. ضعف اصلی روش‌های ماتریس فاصله عدم توانایی‌شان برای استفاده مناسب از اطلاعات مربوط به نواحی با تغییر بالای موضعی است که در میان زیر درخت‌های چندگانه مشاهده می‌شوند.^[۲]

اتصال مجاور

روش‌های اتصال مجاور (N-J) تکنیک‌های عمومی خوشه‌بندی داده‌ها را با استفاده از فاصلهٔ ژنتیکی به عنوان یک متریک خوشه بندی، در مورد آنالیز توالی‌ها استفاده می‌کند. روش سادهٔ اتصال مجاور یک درخت بدون ریشه تولید می‌کند اما در این روش یک نرخ تکامل ثابت (ساعت مولکولی) در طی نسل‌های مختلف در نظر گرفته نمی‌شود. اما در روش UPGMA (روش جفت گروه بدون وزن با میانگین حسابی) درخت‌های ریشه دار تولید می‌شود و فرض را بر ثابت بودن نرخ تکامل می‌گذارند؛ در واقع درختی فرامتریک تولید می‌شود که در ان فاصله از ریشه تا هر سرشاخه یکسان است.

روش فیچ-مارگولیش

روش فیچ-مارگولیش یک متد کمترین مربعات وزندار را برای خوشه بندی بر مبنای فاصلهٔ ژنتیکی به کار می‌برد.^[۳] توالی‌های بسیار نزدیک به هم در این روش وزن بیشتری می‌گیرند تا افزایش خطایی که در اندازه‌گیری فاصلهٔ بین توالی‌های دورتر رخ می‌دهد را جبران کند. داده‌هایی که به عنوان ورودی الگوریتم استفاده می‌شوند را باید پیش از استفاده نرمال کرد تا مانع بروز مشکلاتی شود که در محاسبه رابطه بین گروه‌های نزدیک و دور رخ می‌دهد. فاصله‌هایی که در این روش محاسبه می‌شوند باید خطی باشند، خطی بودن در اینجا به این معنی است که مقدار مورد انتظار برای مجموع طول دو شاخه جدا باید برابر با مجموع مقدار مورد انتظار طول آن‌ها باشد، ویژگی ای که تنها زمانی در مورد توالی‌های زیستی اعمال می‌شود که آن‌ها برای امکان جهش بازگشتی تطبیق داده شده باشند.

این تصحیح از طریق ماتریس‌های جانشانی مانند آنچه که از مدل تکاملی DNA، منسوب به junkes-cantor بدست می‌آید انجام می‌شود. تصحیح فاصله‌ها عملاً زمانی مورد نیاز است که نرخ تکامل در میان شاخه‌های مختلف متفاوت باشد.^[۲]

معیار کمترین مربعات که در این روش استفاده می‌شود نسبت به روش اتصال مجاور از صحت بیشتر اما کارایی کمتری برخوردار است. در مواردی که هزینه‌های محاسباتی افزایش می‌یابد می‌توان از روش‌های اصلاحی دیگری نیز برای تصحیح همبستگی فاصله‌هایی که از توالی‌های بسیار نزدیک بدست می‌ایند استفاده کرد. یافتن درخت بهینهٔ کمترین مربعات در هر صورت یک مسئلهٔ NP-کامل است^[۴] به همین دلیل روش‌های هیوریستیکی مشابه آنچه در تحلیل‌های ماکسیمم-پارسیمونی استفاده می‌شود در اینجا نیز برای جستجو در فضای درخت‌ها بکار می‌روند.

استفاده از اطلاعات تاریخ تکاملی

اطلاعات مستقل دربارهٔ روابط بین توالی‌ها یا گروه‌ها می‌تواند کمک کند تا حجم جستجو در فضای درخت‌ها کاهش یابد. کاربرد استاندارد روش ماتریس فاصله ما را با مسئله وجود حداقل یک توالی outgroup که فاصلهٔ دوری با توالی‌های فضای جستجو دارد روبرو می‌کند.^[۱] این کاربرد می‌تواند به عنوان یک نوع کنترل تجربی محسوب شود. اگر outgroup به درستی انتخاب شده باشد آنگاه شامل یک فاصله ژنتیکی بسیار بزرگ خواهد بود و بنابراین یک طول شاخهٔ بسیار بزرگتر نسبت به سایر توالی‌ها خواهد داشت و این مورد در همسایگی ریشهٔ یک درخت ریشه دار مشاهده خواهد شد. انتخاب یک outgroup مناسب مستلزم انتخاب یک توالی است که فاصلهٔ میانه‌ای را با توالی‌های مورد نظر داشته باشد داشتن رابطهٔ بیش از حد نزدیک غرض انتخاب outgroup را نقض می‌کند و همچنین فاصلهٔ بیش از حد دود باعث ورود خطا در تحلیل می‌شود^[۱] باید احتیاط‌های لازم لحاظ شود تا موقعیت‌هایی پیش نیاید که در ان توالی‌ها از گونه‌هایی انتخاب شده‌اند که فاصلهٔ دوری از هم دارند اما ژنی که توسط توالی‌ها کد می‌شود در طی تغییرات نسل محفوظ مانده‌است. انتقال افقی ژن به ویژه بین انشعابات باکتریایی می‌تواند کاربرد outgroup را مختل کند.

نقاط ضعف روش‌های گوناگون

در حالت کلّی فاصلهٔ دوتایی یک تخمین دست پایین از فاصله مسیری بین taxaهای روی یک فیلوگرام است. فاصلهٔ دوتایی در قیاس با فاصلهٔ جغرافیایی تقریب خامدستانه تری را ارائه می‌کند: فاصله بین دو شهر ممکن است روی خط مستقیم ۱۰۰ کیلومتر باشد اما یک مسافر ممکن است مجبور باشد ۱۲۰ کیلومتر را بین دو شهر طی کند و ان هم به خاطر پیچ و خم‌های جاده و ایستکاه‌های متعدد قطار و… در بین جفت‌های یک taxa برخی تغییرات در بین نسل‌های گذشته ممکن است قابل ردگیری نباشد چون تغییرات بعدی شواهد موجود را از بین برده‌است. این مشکل در میان همهٔ تخمین‌های فیلوژنتیک مشترک است اما در مورد روش‌های فاصله‌ای بسیار حادتر است، به این خاطر که تنها دو نمونه برای محاسبه هر فاصله به کار می‌رود، بقیه روش‌ها از شواهد این تغییر پنهان که ممکن است در taxaهای دیگری که در مقایسهٔ دوتایی لحاظ نشده‌اند وجود داشته باشند سود می‌برند.

در مورد داده‌های توالی امینو اسیدها و نوکلئوتید اسیدها مدل‌های اماری مشابه آنچه که در روش درست نمایی بیشینه برای مدل کردن تغییرات هسته‌ای بکار می‌روند قابل استفاده‌است تا فاصله‌ها تصحیح شوند و آنالیز داده‌ها به یک روش نیمه پارامتری تحویل شود.

الگوریتم‌های سادهٔ بسیاری موجودند تا مستقیماً از روی فاصله‌های دوتایی بتوان یک درخت تولید کرد، روش‌هایی چون UPGMA و اتصال مجاور اما این روش‌ها لزوماً بهترین درخت را مطابق با داده‌های موجود ارائه نمی‌کنند. برای پیشگیری از پیچیدگی‌های ذکر شده و به منظور یافتن بهترین درخت برای داده‌ها تحلیل فاصله می‌تواند یک پروتکل جستجوی درخت را که مستلزم برآورده کردن معیار روشنی برای بهینه بودن است در بر بگیرد. ۲ معیار بهینگی معمولاً در این موارد بکار می‌روند: تکامل کمینه و استنباط کمترین مربعات. روش کمترین مربعات بخشی از یک کلاس گسترده‌تر از روش‌های رگرسیون پایه است که در اینجا به خاطر سادگی به‌طور فشرده آورده شده‌است. این فرمول رگرسیون با برازش یک درخت به فاصله‌های تجربی تفاوت بین فاصله‌های مسیری در طول درخت و فاصله‌های جفتی در داده‌ها را مینیمم می‌کند. در مقابل تکامل کمینه درخت با کوتاهترین مجموع طول شاخه‌ها را می‌پذیرد و از اینروست که مقدار کل پذیرفته شده برای تکامل را مینیمم می‌کند.

تکامل کمینه به شدت وابسته به پارسیمونی است و تحت شرایط مشخص تحلیل فاصلهٔ تکامل کمینه بر پایهٔ یک مجموعه داده از کاراکترهای گسسته همان درختی را پیشنهاد می‌کند که تحلیل‌های پارسیمونی مناسب از داده‌های مشابه تولید می‌کنند.

تخمین فیلوژنی با استفاده از روش‌های فاصله بحث‌های زیادی را برانگیخت. UPGMA یک درخت فرامتریک (درختی که طول تمام مسیرها از ریشه به سرشاخه‌ها یکسان باشد) را مد نظر می‌گیرد. اگر نرخ تکامل در تمام نسل‌های موجود در نمونه یکسان باشد (یک ساعت مولکولی) و اگر درخت به‌طور کامل متوازن باشد آنگاه UPGMA نباید یک نتیجهٔ پیشقدر دار را تولید کند. این انتظارات در اکثر مجموعه‌های داده دیده نمی‌شود و با وجود اینکه UPGMA تا حدی برای برطرف کردن این نقایص توانایی دارد اما معمولاً ان را برای تخمین فیلوژنی بکار نمی‌برند. مزیت UPGMA اینست که سریعست و می‌تواند با بسیاری از توالی‌ها کار کند.

اتصال مجاور یکی از انواع روش‌های تجزیهٔ ستاره‌ای است و همانند روش‌های هیوریستیکی معمولاً دارای کمترین محاسبات است. این روش در جای خود بسیار مورد استفاده‌است و در واقع به‌طور مکرر برای تولید دخت‌های قابل اتکا بکار می‌رود این روش فاقد هر گونه ترتیبی برای جستجوی درختان و هر گونه معیاری برای بهینگی است به همین دلیل هیچ تضمینی وجود ندارد که درختی که در این روش تولید می‌شود بهترین برازش را بر داده‌های موجود داشته باشد. در واقع باید از اتصال همسایه برای تولید یک درخت آغازی برای یک روش تحلیلی مناسبتر استفاده کرد، آنگاه یک روش جستجوی درخت با معیار بهینگی را بکار برد تا به‌طور قطعی جستجو به بازیابی بهترین درخت ختم شود.

بسیاری از دانشمندان از روش‌های فاصله پرهیز می‌کنند در بسیاری از موارد این به خاطر دلایل مبهم فلسفی است یک دلیل اینست که فاصله‌ها ذاتاً phenetic هستند تا فیلوژنتیک، به این ترتیب که آن‌ها شباهت‌های ذاتی را از شباهتهای اکتسابی متمایز نمی‌کنند. این انتقاد کاملاً هم منصفانه نیست: بسیاری از عملیات‌های اخیر استنباط‌های فیلوژنتیک بیزی، درست نمایی بیشینه و پارسیمونی مدل‌های با زمان برگشت‌پذیر را به کار می‌برند و از اینرو هیچتطابقی را میان حالتهای اکسابی و اجدادی ایجاد نمی‌کنند. تحت این مل‌ها درخت به صورت بدون ریشه تخمین زده می‌شود و ریشه‌گذاری و تعریف قطب‌ها پس از تحلیل انجام می‌شود. تفاوت اولیهٔ این روش‌ها با روش فاصله در اینست که روش‌های بیزی، درست نمایی بیشینه و پارسیمونی کاراکترها را جداگانه بر درخت‌ها برازش می‌کنند در صورتی که روش فاصله همهٔ کاراکترها را یکجا بکار می‌برد و در واقع هیچ چیز ذاتاً کمتر فیلوژنتیک در این روش وجود ندارد. از نگاه عملی تر بیشتر به این خاطر از روش‌های فاصله پرهیز می‌شود که رابطهٔ بین کاراکترهای انفرادی و درخت در طی فرایند تقلیل کاراکترها به فاصله از بین می‌رود به این خاطر که این روش‌ها مستقیماً داده‌های کاراکتری را بکار نمی‌برند و از اینرو اطلاعات موجد در کاراکترها تا حدر در طی فراین مقایسهٔ جفتی از بین می‌روند. همچنین برخی روابط مختلط فیلوژنتیکی می‌تواند فاصله‌های پیشقدر دار تولید کند. در هر فیلوگرامی طول شاخه‌ها را باید تخمین دست پایین گرفت زیرا برخی تغییرات به خاطر انقراض برخی گونه‌ها یا دلایل دیگر قابل شناسایی نیستند. در هر حال اگر داده‌های حاصل از فاصله‌های ژنتیکی توسط مدل‌های اماری مورد استفاده برای تکامل تصحیح شده باشند می‌توان به آسانی آن‌ها را به هر درخت دیگری که توسط تحلیل داده‌های مشابه با روش درست نمایی بیشینه تولید شده اضافه شوند. و این بدین خاطر است که فاصله‌های جفتی مستقل نیستند؛ هر شاخه روی درخت در اندازه‌گیری فاصله‌های تمام taxaهایی که جدایشان می‌کند نمایان می‌شود. هر خطای نتیجه‌گیری ناشی از کاراکترهای شاخه که ممکن است باعث اختلال در فیلوژنی شود (مانند تغییرات تصادفی، تغییر در پارامترهای تکاملی یک طول غیر نرمال در شاخه‌ها) از طریق تمام اندازه‌گیری‌های فاصله مرتبط تکثیر می‌شود. آنگاه ماتریس فاصله ممکن است یک درخت کمتر بهینه را برازش کند. علی‌رغم همهٔ این مشکلات روش‌های فاصله بسیار سریع هستند و معمولاً تخمین‌های معقولی از فیلوژنی تولید می‌کنند، همچنین انه مزیت قطعی بر روش‌هایی دارند که داده‌های کاراکتری را مستیما استفتده می‌کنند. و قابل توجه است که روش‌های فاصله بکارگیری داده‌هایی که ممکن است به آسانی به داده‌های کاراکتری قابل تبدیل نباشند را ممکن می‌سازد نظیر ازمایش‌های پیوند DNA-DNA. برای برخی روش‌های تخمین شبکه‌ای (به‌طور ویژ neighbor net) مجردسازی اطلاعات مربوط به کاراکترهای انفرادی در داده‌های فاصله‌ای یک مزیت است. زمانی که کاراکتر به کاراکتر پیش می‌رویم تناقضات بین کاراکتر و درخت که ناشی از شبکه بندی است را نمی‌توان به‌طور قطع ناشی از تشابه ساختمانی دانست یا به بروز خطا اما معمولاً این تناقض‌ها پیش از آنکه داده‌ها پیشقدر دار شوند مربوط به خطا یا تشابه ساختمانی نیستند و معمولاً به شبکه بندی مربوط می‌شود. روش‌های فاصله‌گذاری به‌طور عمده در بین گروهی از متخصصان سیستم‌های مولکولی رایج است اما با رشد فزایندهٔ روش‌های کاراکتر پایه برخی مزایای روش فاصله‌گذاری رو به کمرنگ شدن دارند؛ با این وجود مزایای چون پیاده‌سازی تقریباً هم‌زمان NJ، توانایی همراه کردن یک مدل تکاملی با یک تحلیل نسبتاً سریع، روش‌های تخمین شبکه‌ای و مزایای دیگر تضمین می‌کند که همچنان برای مدتی طولانی روش‌های فاصله‌گذاری در کانون توجه باشند.

جستارهای وابسته

List of phylogenetics software

منابع

↑ ^۱٫۰ ^۱٫۱ ^۱٫۲ Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
↑ ^۲٫۰ ^۲٫۱ Felsenstein J. (2004). Inferring Phylogenies Sinauer Associates: Sunderland, MA.
↑ Fitch WM; Margoliash E (1967). «Construction of phylogenetic trees". Science 155 (760): 279–284. doi:10.1126/science.155.3760.279. PMID 5334057.
↑ Day, WHE. (1986). Computational complexity of inferring phylogenies from dissimilarity matrices. Bulletin of Mathematical Biology 49:461-7.

[Mount_DM._2004-1] ۱٫۰ ^۱٫۱ ^۱٫۲ Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.

[Felsenstein_J._2004-2] ۲٫۰ ^۲٫۱ Felsenstein J. (2004). Inferring Phylogenies Sinauer Associates: Sunderland, MA.

[3] Fitch WM; Margoliash E (1967). «Construction of phylogenetic trees". Science 155 (760): 279–284. doi:10.1126/science.155.3760.279. PMID 5334057.

[4] Day, WHE. (1986). Computational complexity of inferring phylogenies from dissimilarity matrices. Bulletin of Mathematical Biology 49:461-7.

[۱]

[۲]

[۳]

[۴]