مدلهای سیر فرگشتی دیانای: تفاوت میان نسخهها
ایجاد شده توسط ترجمهٔ صفحهٔ «Models of DNA evolution» |
(بدون تفاوت)
|
نسخهٔ ۲۳ دسامبر ۲۰۱۶، ساعت ۲۰:۴۹
مدلهای زیادی مبتنی بر زنجیرهی مارکوف، برای مدلسازی سیر تکاملی دیانای ارایه شده است. این مدلهای جانشینی با هم در پارامترهایی که برای توضیح نرخ جانشینی یک نوکلئوتید در طول تکامل در نظر گرفته میشوند، متفاوت هستند. این مدلها معمولا در آنالیز فیلوژنتیک مولکولی استفاده میشوند. به طور خاص از مدلهای ارایه شده در برآورد درستنمایی بیشینهی درخت و تخمین فاصلهی تکاملی میان توالیها با داشتن فواصل مشاهدهشده در میان آنها، استفاده میشود.
معرفی
مدلهای تکاملی دیانای توضیح دهندهی وضعیت تکاملی دیانای به عنوان رشتهای شامل ۴ حرف است. مدلهای مارکوف به طور دقیق نحوهی ایجاد جهش یا عمل انتخاب طبیعی را توضیح نمیدهند، بلکه نرخ نسبتی جهشها را در رشتهی دیانای مدل میکنند. به طور مثال در تغییرات توالیها، نابرابری احتمال جهشها و احتمال از بین رفتن اللهایی که با محیط سازگار نیستند، مسئول نرخ بالای جایگزینی انتقالی نسبت به تراگشت در رشتههای در حال تغییر هستند. در حالی که در مدل Kimura (K80) که در ادامه توضیح داده شده است، تاثیر تعصبات جهشها و انتخاب تصفیه تنها در پارامتری در نظر گرفته شده است که نرخ نسبی جایگزینی انتقالی را به تراگشت مدل میکند.
تحلیلهای تکاملی توالیها برای بازههای زمانی مختلفی انجان شده است، از این رو بیان این مدلها به کمک نرخ آنی حرکت میان حالتها مختلف قابل قبول است. ماتریس Q که در ادامه اورده شده است، نشان دهندهی این نرخ تغییر است. در صورتی که بدانیم که حالت شروع در یک نقطه کدام است، ماتریس Q در مدل و فاصلهی زمانی میان جد و فرزند، احتمال تعداد تغییرات در طول این زمان و احتمال رسیدن به هر کدام از حالتها موجود را میتوان استخراج کرد. جزییات مربوط به رسیدن از ماتریس نرخ به ماتریس احتمال در مدلهای ریاضیاتی جانشینی توضیح داده میشود. در نظر گرفتن نرخ آنی در مدل، باعث بینیازی آن از محاسبهی پارامترهای هرکدام از سطوح درخت فیلوژنی میشود.
مدلهای شرح داده شده در این صفحه، تغییرات یک حرف از مجموعهای از حروف را نشان میدهند. در چنین مدلهایی برای تحلیل تغییرات کل توالی با فرض این که رشته شامل متغیرهای تصادفی مستقل با توزیع یکسان است، هر حرف را به شکل مستقل تحلیل میکنند. فرض استقلال را میتوان با در نظر گرفتن این که هر حرف بدون تاثیرپذیری از سایر حروف تغییر میکند، توجیه کرد. در صورتی که تاثیر اولیهی انتخاب طبیعی بر روی تغییرات توالی نواحی خاصی را محدود کند، میتوان از مدلهای دیگری استفاده کرد که نرخ نسبی جایگزینی هر حرف نسبت به حرف دیگر را محاسبه میکند و با استفاده از پارامترهای دیگری در مدل، واریانس تغییرات نرخهای جایگزینی را کنترل میکند.
زنجیرههای مارکوف پیوسته زمان
زنجیرههای مارکوف پیوسته زمان دارای ماتریس انتقال با پارامتر t هستند. اگر E_{1},E_{2},E_{3} و E_{4} نمایندهی وضعیتها در مدل باشند، انگاه ماتریس انتقال به شکل
- است که در آن هر مولفه نشاندهندهی احتمال تغییر وضعیت به وضعیت در زمان .
مثال: میخواهیم فرآیند جایگزینی را در توالی دیانای به صورت پیوسته زمان مدل کنیم (مثلا Jukes-Cantor, Kimura و غیره). ماتریس انتقال مربوط به آن به شکل زیر خواهد بود:
که در آن بلوکهای ۲ × ۲ بالا-چپ و پایین-راست، مربوط به احتمال جایگزینی انتقالی و بلوکهای ۲ × ۲ بالا-راست و پایین-چپ مربوط به احتمالهای تراگشت هستند.
فرض: اگر در لحظهی t_{0}\ زنجیرهی مارکوف در وضعیت E_{i}\ باشد، آنگاه احتمال آنکه در لحظه t_{0}+t\ در وضعیت E_{j}\ باشیم وابسته به مقادیر i\ و j\ و t\ است، بنابراین میتوانیم این احتمال را به شکل p_{{ij}}(t)\ بنویسیم.
قضیه: ماتریس انتقال پیوسته زمان دارای خاصیت زیر است:
توجه داشته باشید: ممکن است بین دو معنی کلمهی انتقال اشتباه به وجود بیاید. (i) در زمینهی زنجیرهی مارکوف، انتقال به معنی جابهجایی میان دو وضعیت است. (ii) در زمینهی تغییر در نوکلئوتیدها در توالی دیانای، جایگزینی انتقالی به معنی جابهجایی میان دو پورین (A↔G) یا میان دو پیریمیدین است (برای اطلاعات بیشتر به صفحهی جایگزینی انتقالی مراجعه کنید). جابهجایی میان یک پورین و یک پیریمیدین تراگشت نامیده میشود.
توالی دیانای با طول ثابت m را در نظر بگیرید که با جانشینی بازها در طول زمان تغییر پیدا میکند. فرض کنید که فرآیندهای انجام شده روی m مکان در توالی به صورت مارکوفی مستقل و دارای توزیع یکسان باشند. برای هر مکان مشخص داریم:
که ماتریس احتمال وضعیتهای A,\ \ G,\ \ C,\ و \ T\ در زمان t\ هستند. از طرف دیگر مجموعهی وضعیتهای مساله به شکل زیر است:
برای دو وضعیت مجزا در توالی x,y\in {\mathcal {E}} مقدار \mu _{{xy}}\ نشاندهندهی نرخ انتقال میان وضعیت x\ به وضعیت y\ باشد. به طور مشابه برای هر x\ داریم:
تغییرات در توضیح احتمال p_{A}(t)\ وقتی که زمان به اندازهی \Delta t\ زیاد میشود به شکل زیر است (\Delta t\ مقدار کوچکی است):
به عبارت دیگر، در دیدگاه فراوانی گرایانه، فراوانی وضعیت A\ در زمان t+\Delta t\ برابر فراوانی در زمان t\ منهای تعداد حالتهایی است که از وضعیت A\ تغییر کردهاند، به اضافهی تعداد حالتهایی است که به A\ تغییر وضعیت دادهاند.
به طور مشابه، عبارتهای پیشین برای احتمالهای p_{C}(t)\,p_{G}(t)\ و p_{T}(t)\ برقرار است. میتوانیم به طور فشرده بنویسیم:
که در آن:
یا به طور متناوب:
که در آن Q\ ماتریس نرخ است. توجه داشته باشید که در تعریف، جمع ستونهای ماتریس Q\ برابر صفر است. برای یک فرایند مانا که Q\ به زمان وابسته نیست، معادلات تفاضلی به کمک ماتریس توان قابل حل است:
ارگادیسیتی
اگر تمام احتمال انتقالات مثبت باشد، به این معنی که تمام وضعیتهای x,y\in {\mathcal {E}}\ با هم قابل جابهجا شدن باشند، آنگاه زنجیرهی مارکوف، دارای یک توزیع مانای یکتای {\mathbf {\Pi }}=\{\pi _{x},\ x\in {\mathcal {E}}\} است که هر \pi _{x}\ نسبت زمانی است که بعد از اجرای مارکوف تا زمان بینهایت در وضعیت x\ گذرانده شده است. چنین زنجیرهی مارکوفی ارگادیک نامیده میشود. در تکامل دیانای، با فرض فرآیندهای مشابه برای هر مکان، فراوانیهای مانای, \pi _{A},\pi _{G},\pi _{C},\pi _{T}\, به عنوان نقطهی تعادل هر حالت در نظر گرفته شده است.
زمانی که توزیع کنونی {\mathbf {P}}(t) همان توزیع ایستا \mathbf {\Pi } است، آنگاه میتوان گفت Q{\mathbf {\Pi }}=0، به کمک معادلات دیفرانسیل بالا داریم:
Q{\mathbf {\Pi }}=Q{\mathbf {P}}(t)={\frac {d{\mathbf {P}}(t)}{dt}}=0\,.
بازگشتپذیری در زمان
تعریف: یک فرآیند مارکوف بازگشتپذیر در زمان است اگر در وضعیت پایدار، احتمال تغییر وضعیت از x\ به y\ برابر با احتمال تغییر وضعیت از y\ به x\ باشد (هرچند که احتمال حضور در هرکدام از وضعیت با یکدیگر متفاوت باشند). بنابراین میتوان گفت:
تمام فرآیندهای ایستا بازگشتپذیر نیستند، هرچند تقریبا تمام مدلهای تحولی دیانای فرض بازگشتپذیری در زمان را در نظر میگیرند (و این فرض، فرضی منطقی و متناسب با مساله است). بر اساس فرض بازگشتپذیری در زمان متغیر جدید s_{{xy}}=\mu _{{xy}}/\pi _{y}\ را تعریف میشود. بنابراین:
تعریف: متغیر s_{{xy}}\ جابهجاییپذیری میان وضعیتهای x\ و y\ نامیده میشود. به معنای دیگر s_{{xy}}\ نسبت حالتهایی از x\ که از طریق y\ به x\ رفتهاند.
نتیجه: ۱۲ درایهی خارج از قطر ماتریس تغییر وضعیت (Q\) میتواند توسط ۹ عدد مشخص شوند که ۶تای آنها توسط متغیر جابهجایی پذیری و ۳تای دیگر توسط تکرار ایستای \pi _{x}\ مشخص میشود. توجه داشته باشید که مجموع تکرارهای ایستا برابر ۱ بوده و مجموع هر سطر از Q\ برابر ۱ است.
مقیاسگذاری طول شاخهها
با مقایسهی توالیهای موجود، میتوان واگرایی توالیها را مشخص کرد. اندازهگیری واگرایی اطلاعاتی را دربارهی تعداد تغییراتی که در طول مسیر جدایی توالیها بهوجود آمده است، فراهم میکند. شمارش سادهی تعداد اختلافها (فاصلهی همینگ) میان توالیها، معمولا تعداد جایگزینیها در توالیها کمتر از مقدار واقعی تخمین زده میشود. تخمین دقیق تعداد تغییرات صورت گرفته، مشکل بوده و معمولا ضروری نیست. به جای این محاسبه، معمولا طول مسیرهای روی درخت فیلوژنی به عنوان تعداد میانگین تعداد تغییرات در هر بخش از توالی در نظر گرفته میشود. طول مسیر برابر حاصلضرب زمان مسیر در میانگین نرخ جایگزینی است. هرچند که این حاصلضرب قابل تخمین است، اما نرخ تغییر و زمان مسیر قابل اندازهگیری از روی واگرایی توالیها قابل اندازهگیری نیستند.
تعریف ماتریس نرخ جهش در این صفحه به طور دقیق مقدار نسبی جایگزینیها را مشخص میکند، اما این ماتریسها طوری مقیاسگذاری نشدهاند که شاخهای با طول ۱ به طور میانگین دارای یک تغییر باشد. این تغییر مقیاس میتواند با تغییر مقیاس ماتریس توسط طول شاخهی درخت صورت بگیرد. اگر β نشاندهندهی فاکتور مقیاس و ν نشاندهندهی طول شاخه باشد که از طریق میانگین تعداد جایگزینیها در هر نقطه از توالی اندازهگیری میشود، آنگاه βν در فرمولهای احتمالی انتقال، به جای μt استفاده میشود. قابل توجه است که ν پارامتری است که از دادهها تخمین زده میشود و به عنوان طول شاخه در نظر گرفته میشود، و β عددی است که از طریق ماتریس نرخ جهش محاسبه شده و یک پارامتر جداگانه نیست.
مقدار پارامتر β میتواند با اجبار به این که میانگین نرخ شار از هر وضعیت برابر ۱ باشد، به دست بیاید. مقادیر روی قطر ماتریس نرخ (ماتریس Q)، برابر حاصلضرب مقدار ۱- در نرخ خروج از وضعیت است. برای مدلهای برگشتپذیر در زمان، نقطهی تعادل وضعیتهای تعریف شده (که برای وضعیت i همان πi) را میدانیم. بنابراین میتوان متوسط نرخ تغییر را با محاسبهی جمع حالتهای خارج شده از هر وضعیت که با مقداری متناسب با تعداد مکانهایی که به طور متوسط انتظار میرود که در هر کلاس باشد، وزن دهی شده است، محاسبه کنیم. در این محاسبات β را به شکل زیر تعریف میکنیم:
به طور مثال در مدل Jukes-Cantor پارامتر مقیاسگذاری برابر 4/(3μ) است زیرا نرخ خروج از هر وضعیت برابر 3μ/4 است.
مدل JC69 سادهترین مدل جانشینی موجود است. از جمله فرضهای این مدل برابری تعداد تکرار هر کدام از بازهای موجود در توالی دیانای و برابری نرخ جهش در تمام آنها است
\left(\pi _{A}=\pi _{G}=\pi _{C}=\pi _{T}={1 \over 4}\right) تنها پارامتری که در این مدل استفاده میشود \mu است که برابر نرخ کلی جایگزینی در این مدل است. همانطور که پیش از گفته شد، این متغیر در زمانی تغییر میانگین نرخ به ۱ به ثابت تبدیل میشود.
زمانی که طول شاخه، \nu ، بر اساس متوسط تعداد تغییرات در هر مکان اندازهگیری میشود، داریم:
لازم به ذکر است که:
\nu ={3 \over 4}t\mu =({\mu \over 4}+{\mu \over 4}+{\mu \over 4})t
که \nu به معنی متوسط تعداد جایگزینی در زمان t (طول شاخه) برای هر حرف در توالی است، زمانی که نرخ جانشینی برابر \mu است.
در صورتی که نسبت p از تغییرات میان دو توالی در یک حرف داده شده باشد، مدل Jukes-Cantor فاصلهی تکاملی میان دو رشته را، بر اساس متوسط تعداد تغییرات، به شکل زیر محاسبه میکند.
متغیر p نشاندهندهی تعداد جابهجایی است که با عنوان فاصلهی p شناخته شده و یک آمارهی بسنده برای محاسبات در مدل Jukes-Cantor است.
مدل K80 (کیمورا, 1980)[۱]
مدل k80 تفاوت را میان جایگزینیهای انتقالی (پورین به پورین یا پیریمیدین به پیریمیدین) و تراگشت (از یک پورین به یک پیریمیدین یا برعکس) مدل میکند. در توضیح اصلی کیمورا دربارهی مدل، α و β برای نشان دادن نرخ جانشینیهای مختلف استفاده شدهاند، اما در حال حاضر، معمولا نرخ تراگشت برابر ۱ قرار داده شده و از κ به عنوان نسبت جایگزینی انتقالی به تراگشت استفاده میشود. در مدل K80 فرض میشود که تمام حالتهای پایه دارای احتمال برابر هستند (πT=πC=πA=πG=0.25).
پارامترهای مدل کیمورا به شکل زیر هستند:
که در آن p درصد تعداد حروفی در توالی است که جایگشت انتقالی رخ داده و q درصد تعداد جایگاههایی است که تراگشت رخ داده است.
مدل F81 (Felsenstein 1981)[۲]
این مدل در واقع گسترشیافتهی مدل JC69 است به طوری که احتمالهای پایهی میان بازهای موجود در توالی میتوانند با هم برابر نباشند (\pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G})
ماتریس نرخ به شکل زیر است:
هنگامی که طول شاخه، ν، بر اساس متوسط تعداد تغییرات در هر مکان از توالی اندازهگیری میشود، داریم:
مدل HKY85 (Hasegawa های Kishino و یانو 1985)[۳]
این مدل را میتوان به عنوان تلفیقی از مدلهای گسترشیافتهی Kimura80 و Felsentein81 در نظر گرفت. مدل HKY85 میان نرخ جایگزینی انتقالی و تراگشت با کمک پارامتر κ تفاوت قایل میشود و از سوی دیگر اجازه میدهد تا احتمالهای پایهی میان بازهای مختلف متفاوت باشد (\pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G}) [مدل F84 در سال ۱۹۸۴ با پارامترهای دیگری با در نظر گرفتن عدم برابر احتمالهای پایه توسط Felsenstein ارایه شد[۴] [۵] ]. ماتریس نرخ تغییرات در این مدل به شکل زیر است:
در صورتی که طول شاخه، ν، را با کمک متوسط تعداد تغییرات صورت گرفته در هر حرف از توالی بیان کنیم داریم:
و فرمول برای سایر حالتهای ممکن از وضعیتهای حروف را میتوان با جایگزینی احتمال مناسب از هر باز به دست آورد.
مدل T92 (Tamura 1992)[۶]
T92 یک مدل سادهی ریاضیاتی برای تخمین تعداد جانشینیهای نوکلئوتیدها در هر مکان توالی میان دو توالی دیانای با گسترش مدل Kimura80 بوده، به طوری که نسبت به پیوند G+C متمایل است. این روش زمانی کاربردی است که جایگزینی انتقالی-تراگشت بالایی وجود داشته و نسبت به G+C متمایل باشد مانند حالتی که در دیانای میتوکندری مگس سرکه اتفاق میافتد.
با داشتن فرکانس
ماتریس تغییرات بازها به شکل زیر است:
فاصلهی تکاملی میان دو رشتهی بیرمز بر اساس این مدل به شکل زیر است:
که در آن و محتوای GC است.
مدل TN93 (تامورا و نی 1993)[۷]
این مدل تفاوت میان دو حالت جایگزینی انتقالی را در نظر میگیرید، به این معنی که (A <-> G) میتواند نرخ متفاوتی نسبت به (C<->T) داشته باشد، اما تراگشتها دارای نرخ برابر هستند (هرچند نرخ تراگشت میتواند عددی متفاوت از نرخهای جایگزینی انتقالی باشد). در این مدل، احتمال هرکدام از پایهها میتوانند متفاوت باشند (\pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G}).
GTR: مدل تعمیمیافته و بازگشتپذیر در زمان (Tavaré 1986)[۸]
این مدل، بیطرفترین مدل با استقلال میان حروف و نواحی محدود است که اجازهی برگشتپذیری در مدل وجود دارد. مدل برای اولین بار توسط Simon Tavaré در سال ۱۹۸۶ توضیح داده شد.[۸]
پارامترهای مدل GTR شامل برداری از احتمالات پایدار برای پایههای مختلف به شکل {\displaystyle \Pi =(\pi _{T},\pi _{C},\pi _{A},\pi _{G})} است. ماتریس ارتباط میان وضعیتهای حروف توالی به شکل زیر است:
که در آن
که پارامترهای بالا پارامترهای جایگزینی انتقالی هستند.
بنابراین، GTR نیازمند ۶ پارامتر جانشینی است بوده و ۴ پارامتر برای فرکانس تعادل است. با توجه به روابط میان پارامترها، تعداد پارامترها میتواند به ۹ پارامتر به اضافهی پارامتر \mu (تعداد جانشینیها در واحد زمان) کاهش پیدا کند.
به طور کلی برای محاسبهی تعداد پارامترها، باید تعداد درایههای بالای قطر اصلی در ماتریس را شمارش کنیم، به طور مثال برای n حالت ممکن در یک مکان از توالی {{n^{2}-n} \over 2} و سپس n حالت برای نقاط تعادل اضافه شده و چون \mu ثابت در نظر گرفته میشود، یکی از این تعداد کم میشود.
برای مثال برای توالیهای امینواسیدها (۲۰ نوع امینواسید استاندارد وجود دارد که پروتئینها را تشکیل میدهند)، در این مدل ۲۰۹ پارامتر وجود دارد. در هنگام مطالعهی نواحی رمزشده، معمولا از مدل جانشینی کدون استفاده میشود (هر رمز ژنتیکی یک توالی ۳تایی از حروف پایهی دیانای است که یک امینواسید را در پروتئین نشان میدهد). 4^{3}=64 کدون وجود دارد، اما نرخ جانشینی میان کدونها که در بیش از یک حرف با هم تفاوت دارند، صفر در نظر گرفته میشود، بنابراین {{20\times 19\times 3} \over 2}+64-1=633 پارامتر در مدل وجود دارد.
همچنین ببینید
منابع
- ↑ Kimura M (1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences". Journal of Molecular Evolution. 16 (2): 111–120. doi:10.1007/BF01731581. PMID 7463489.
- ↑ Felsenstein J (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–376. doi:10.1007/BF01734359. PMID 7288891.
- ↑ "Dating of human-ape splitting by a molecular clock of mitochondrial DNA". Journal of Molecular Evolution. 22 (2): 160–174. 1985. doi:10.1007/BF02101694. PMID 3934395.
- ↑ "Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". Journal of Molecular Evolution. 29 (2): 170–179. 1989. doi:10.1007/BF02100115. PMID 2509717.
- ↑ "A Hidden Markov Model approach to variation among sites in rate of evolution, and the branching order in hominoidea". Molecular Biology and Evolution. 13 (1): 93–104. 1996. doi:10.1093/oxfordjournals.molbev.a025575. PMID 8583911.
- ↑ Tamura K (1992). "Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C content biases". Molecular Biology and Evolution. 9 (4): 678–687. PMID 1630306.
- ↑ "Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Molecular Biology and Evolution. 10 (3): 512–526. 1993. PMID 8336541.
- ↑ ۸٫۰ ۸٫۱ Tavaré S (1986). "Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences" (PDF). Lectures on Mathematics in the Life Sciences. American Mathematical Society. 17: 57–86.
مطالعه بیشتر
- "Higher rates of amino acid substitution in rodents than in man". Molecular Phylogenetics and Evolution 1 (3): 211–214. 1992. doi:10.1016/1055-7903(92)90017-B. PMID 1342937.
- Li W-H; Ellsworth DL; Krushkal J; Chang BH-J; Hewett-Emmett D (1996). "Rates of nucleotide substitution in primates and rodents and the generation-time effect hypothesis". Molecular Phylogenetics and Evolution. 5 (1): 182–187. doi:10.1006/mpev.1996.0012. PMID 8673286.
لینک های خارجی
- DAWG: DNA مجمع با شکاف — رایگان نرم افزار برای شبیه سازی توالی, تکامل,