مدل‌های سیر فرگشتی دی‌ان‌ای: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده

درخط

نسخهٔ ‏۲۳ دسامبر ۲۰۱۶، ساعت ۲۰:۴۹

مدل‌های زیادی مبتنی بر زنجیره‌ی مارکوف، برای مدل‌سازی سیر تکاملی دی‌ان‌ای ارایه شده است. این مدل‌های جانشینی با هم در پارامترهایی که برای توضیح نرخ جانشینی یک نوکلئوتید در طول تکامل در نظر گرفته می‌شوند، متفاوت هستند. این مدل‌ها معمولا در آنالیز فیلوژنتیک مولکولی استفاده می‌شوند. به طور خاص از مدل‌های ارایه شده در برآورد درست‌نمایی بیشینه‌ی درخت و تخمین فاصله‌ی تکاملی میان توالی‌ها با داشتن فواصل مشاهده‌شده در میان آن‌ها، استفاده می‌شود.

معرفی

مدل‌های تکاملی دی‌ان‌ای توضیح دهنده‌ی وضعیت تکاملی دی‌ان‌ای به عنوان رشته‌ای شامل ۴ حرف است. مدل‌های مارکوف به طور دقیق نحوه‌ی ایجاد جهش یا عمل انتخاب طبیعی را توضیح نمی‌دهند، بلکه نرخ نسبتی جهش‌ها را در رشته‌ی دی‌ان‌ای مدل می‌کنند. به طور مثال در تغییرات توالی‌ها، نابرابری احتمال جهش‌ها و احتمال از بین رفتن الل‌هایی که با محیط سازگار نیستند، مسئول نرخ بالای جایگزینی انتقالی نسبت به تراگشت در رشته‌های در حال تغییر هستند. در حالی که در مدل Kimura (K80) که در ادامه توضیح داده شده است، تاثیر تعصبات جهش‌ها و انتخاب تصفیه تنها در پارامتری در نظر گرفته شده است که نرخ نسبی جایگزینی انتقالی را به تراگشت مدل می‌کند.

تحلیل‌های تکاملی توالی‌ها برای بازه‌های زمانی مختلفی انجان شده است، از این رو بیان این مدل‌ها به کمک نرخ آنی حرکت میان حالت‌ها مختلف قابل قبول است. ماتریس Q که در ادامه اورده شده است، نشان دهنده‌ی این نرخ تغییر است. در صورتی که بدانیم که حالت شروع در یک نقطه کدام است، ماتریس Q در مدل و فاصله‌ی زمانی میان جد و فرزند، احتمال تعداد تغییرات در طول این زمان و احتمال رسیدن به هر کدام از حالت‌ها موجود را می‌توان استخراج کرد. جزییات مربوط به رسیدن از ماتریس نرخ به ماتریس احتمال در مدل‌های ریاضیاتی جانشینی توضیح داده می‌شود. در نظر گرفتن نرخ آنی در مدل، باعث بی‌نیازی آن از محاسبه‌ی پارامترهای هرکدام از سطوح درخت فیلوژنی می‌شود.

مدل‌های شرح داده شده در این صفحه، تغییرات یک حرف از مجموعه‌ای از حروف را نشان می‌دهند. در چنین مدل‌هایی برای تحلیل تغییرات کل توالی با فرض این که رشته شامل متغیرهای تصادفی مستقل با توزیع یکسان است، هر حرف را به شکل مستقل تحلیل می‌کنند. فرض استقلال را می‌توان با در نظر گرفتن این که هر حرف بدون تاثیرپذیری از سایر حروف تغییر می‌کند، توجیه کرد. در صورتی که تاثیر اولیه‌ی انتخاب طبیعی بر روی تغییرات توالی نواحی خاصی را محدود کند، می‌توان از مدل‌های دیگری استفاده کرد که نرخ نسبی جایگزینی هر حرف نسبت به حرف دیگر را محاسبه می‌کند و با استفاده از پارامترهای دیگری در مدل، واریانس تغییرات نرخ‌های جایگزینی را کنترل می‌کند.

زنجیره‌های مارکوف پیوسته زمان

زنجیره‌های مارکوف پیوسته زمان دارای ماتریس انتقال با پارامتر t هستند. اگر E_{1},E_{2},E_{3} و E_{4} نماینده‌ی وضعیت‌ها در مدل باشند، انگاه ماتریس انتقال به شکل

است که در آن هر مولفه

نشان‌دهنده‌ی احتمال تغییر وضعیت

به وضعیت

در زمان

.

مثال: می‌خواهیم فرآیند جایگزینی را در توالی دی‌ان‌ای به صورت پیوسته زمان مدل کنیم (مثلا Jukes-Cantor, Kimura و غیره). ماتریس انتقال مربوط به آن به شکل زیر خواهد بود:

که در آن بلوک‌های ۲ × ۲ بالا-چپ و پایین-راست، مربوط به احتمال جایگزینی انتقالی و بلوک‌های ۲ × ۲ بالا-راست و پایین-چپ مربوط به احتمال‌های تراگشت هستند.

فرض: اگر در لحظه‌ی t_{0}\ زنجیره‌ی مارکوف در وضعیت E_{i}\ باشد، آن‌گاه احتمال آن‌که در لحظه t_{0}+t\ در وضعیت E_{j}\ باشیم وابسته به مقادیر i\ و j\ و t\ است، بنابراین می‌توانیم این احتمال را به شکل p_{{ij}}(t)\ بنویسیم.

قضیه: ماتریس انتقال پیوسته زمان دارای خاصیت زیر است:

توجه داشته باشید: ممکن است بین دو معنی کلمه‌ی انتقال اشتباه به وجود بیاید. (i) در زمینه‌ی زنجیره‌ی مارکوف، انتقال به معنی جابه‌جایی میان دو وضعیت است. (ii) در زمینه‌ی تغییر در نوکلئوتیدها در توالی دی‌ان‌ای، جایگزینی انتقالی به معنی جابه‌جایی میان دو پورین (A↔G) یا میان دو پیریمیدین است (برای اطلاعات بیش‌تر به صفحه‌ی جایگزینی انتقالی مراجعه کنید). جا‌به‌جایی میان یک پورین و یک پیریمیدین تراگشت نامیده می‌شود.

توالی دی‌ان‌ای با طول ثابت m را در نظر بگیرید که با جانشینی باز‌ها در طول زمان تغییر پیدا می‌کند. فرض کنید که فرآیند‌های انجام شده روی m مکان در توالی به صورت مارکوفی مستقل و دارای توزیع یکسان باشند. برای هر مکان مشخص داریم:

که ماتریس احتمال وضعیت‌های A,\ \ G,\ \ C,\ و \ T\ در زمان t\ هستند. از طرف دیگر مجموعه‌ی وضعیت‌های مساله به شکل زیر است:

برای دو وضعیت مجزا در توالی x,y\in {\mathcal {E}} مقدار \mu _{{xy}}\ نشان‌دهنده‌ی نرخ انتقال میان وضعیت x\ به وضعیت y\ باشد. به طور مشابه برای هر x\ داریم:

تغییرات در توضیح احتمال p_{A}(t)\ وقتی که زمان به اندازه‌ی \Delta t\ زیاد می‌شود به شکل زیر است (\Delta t\ مقدار کوچکی است):

به عبارت دیگر، در دیدگاه فراوانی گرایانه، فراوانی وضعیت A\ در زمان t+\Delta t\ برابر فراوانی در زمان t\ منهای تعداد حالت‌هایی است که از وضعیت A\ تغییر کرده‌اند، به اضافه‌ی تعداد حالت‌هایی است که به A\ تغییر وضعیت داده‌اند.

به طور مشابه، عبارت‌های پیشین برای احتمال‌های p_{C}(t)\,p_{G}(t)\ و p_{T}(t)\ برقرار است. می‌توانیم به طور فشرده بنویسیم:

که در آن:

یا به طور متناوب:

که در آن Q\ ماتریس نرخ است. توجه داشته باشید که در تعریف، جمع ستون‌های ماتریس Q\ برابر صفر است. برای یک فرایند مانا که Q\ به زمان وابسته نیست، معادلات تفاضلی به کمک ماتریس توان قابل حل است:

ارگادیسیتی

اگر تمام احتمال انتقالات مثبت باشد، به این معنی که تمام وضعیت‌های x,y\in {\mathcal {E}}\ با هم قابل جابه‌جا شدن باشند، آن‌گاه زنجیره‌ی مارکوف، دارای یک توزیع مانای یکتای {\mathbf {\Pi }}=\{\pi _{x},\ x\in {\mathcal {E}}\} است که هر \pi _{x}\ نسبت زمانی است که بعد از اجرای مارکوف تا زمان بی‌نهایت در وضعیت x\ گذرانده شده است. چنین زنجیره‌ی مارکوفی ارگادیک نامیده می‌شود. در تکامل دی‌ان‌ای، با فرض فرآیندهای مشابه برای هر مکان، فراوانی‌های مانای, \pi _{A},\pi _{G},\pi _{C},\pi _{T}\, به عنوان نقطه‌ی تعادل هر حالت در نظر گرفته شده است.

زمانی که توزیع کنونی {\mathbf {P}}(t) همان توزیع ایستا \mathbf {\Pi } است، آن‌گاه می‌توان گفت Q{\mathbf {\Pi }}=0، به کمک معادلات دیفرانسیل بالا داریم:

Q{\mathbf {\Pi }}=Q{\mathbf {P}}(t)={\frac {d{\mathbf {P}}(t)}{dt}}=0\,.

بازگشت‌پذیری در زمان

تعریف: یک فرآیند مارکوف بازگشت‌پذیر در زمان است اگر در وضعیت پایدار، احتمال تغییر وضعیت از x\ به y\ برابر با احتمال تغییر وضعیت از y\ به x\ باشد (هرچند که احتمال حضور در هرکدام از وضعیت با یک‌دیگر متفاوت باشند). بنابراین می‌توان گفت:

\pi _{x}\mu _{xy}=\pi _{y}\mu _{yx}\

تمام فرآیندهای ایستا بازگشت‌پذیر نیستند، هرچند تقریبا تمام مدل‌های تحولی دی‌ان‌ای فرض بازگشت‌پذیری در زمان را در نظر می‌گیرند (و این فرض، فرضی منطقی و متناسب با مساله است). بر اساس فرض بازگشت‌پذیری در زمان متغیر جدید s_{{xy}}=\mu _{{xy}}/\pi _{y}\ را تعریف می‌شود. بنابراین:

s_{xy}=s_{yx}\

تعریف: متغیر s_{{xy}}\ جابه‌جایی‌پذیری میان وضعیت‌های x\ و y\ نامیده می‌شود. به معنای دیگر s_{{xy}}\ نسبت حالت‌هایی از x\ که از طریق y\ به x\ رفته‌اند.

نتیجه: ۱۲ درایه‌ی خارج از قطر ماتریس تغییر وضعیت (Q\) می‌تواند توسط ۹ عدد مشخص شوند که ۶تای آن‌ها توسط متغیر جابه‌جایی پذیری و ۳تای دیگر توسط تکرار ایستای \pi _{x}\ مشخص می‌شود. توجه داشته باشید که مجموع تکرارهای ایستا برابر ۱ بوده و مجموع هر سطر از Q\ برابر ۱ است.

مقیاس‌گذاری طول شاخه‌ها

با مقایسه‌ی توالی‌های موجود، می‌توان واگرایی توالی‌ها را مشخص کرد. اندازه‌گیری واگرایی اطلاعاتی را درباره‌ی تعداد تغییراتی که در طول مسیر جدایی توالی‌ها به‌وجود آمده است، فراهم می‌کند. شمارش ساده‌ی تعداد اختلاف‌ها (فاصله‌ی همینگ) میان توالی‌ها، معمولا تعداد جایگزینی‌ها در توالی‌ها کم‌تر از مقدار واقعی تخمین زده می‌شود. تخمین دقیق تعداد تغییرات صورت گرفته، مشکل بوده و معمولا ضروری نیست. به جای این محاسبه، معمولا طول مسیرهای روی درخت فیلوژنی به عنوان تعداد میانگین تعداد تغییرات در هر بخش از توالی در نظر گرفته می‌شود. طول مسیر برابر حاصلضرب زمان مسیر در میانگین نرخ جایگزینی است. هرچند که این حاصل‌ضرب قابل تخمین است، اما نرخ تغییر و زمان مسیر قابل اندازه‌گیری از روی واگرایی توالی‌ها قابل اندازه‌گیری نیستند.

تعریف ماتریس نرخ جهش در این صفحه به طور دقیق مقدار نسبی جایگزینی‌ها را مشخص می‌کند، اما این ماتریس‌ها طوری مقیاس‌گذاری نشده‌اند که شاخه‌ای با طول ۱ به طور میانگین دارای یک تغییر باشد. این تغییر مقیاس می‌تواند با تغییر مقیاس ماتریس توسط طول شاخه‌ی درخت صورت بگیرد. اگر β نشان‌دهنده‌ی فاکتور مقیاس و ν نشان‌دهنده‌ی طول شاخه باشد که از طریق میانگین تعداد جایگزینی‌ها در هر نقطه از توالی اندازه‌گیری می‌شود، آن‌گاه βν در فرمول‌های احتمالی انتقال، به جای μt استفاده می‌شود. قابل توجه است که ν پارامتری است که از داده‌ها تخمین زده می‌شود و به عنوان طول شاخه در نظر گرفته می‌شود، و β عددی است که از طریق ماتریس نرخ جهش محاسبه شده و یک پارامتر جداگانه نیست.

مقدار پارامتر β می‌تواند با اجبار به این که میانگین نرخ شار از هر وضعیت برابر ۱ باشد، به دست بیاید. مقادیر روی قطر ماتریس نرخ (ماتریس Q)، برابر حاصل‌ضرب مقدار ۱- در نرخ خروج از وضعیت است. برای مدل‌های برگشت‌پذیر در زمان، نقطه‌ی تعادل وضعیت‌های تعریف شده (که برای وضعیت i همان πi) را می‌دانیم. بنابراین می‌توان متوسط نرخ تغییر را با محاسبه‌ی جمع حالت‌های خارج شده از هر وضعیت که با مقداری متناسب با تعداد مکان‌هایی که به طور متوسط انتظار می‌رود که در هر کلاس باشد، وزن دهی شده است، محاسبه کنیم. در این محاسبات β را به شکل زیر تعریف می‌کنیم:

\beta =1/\left(-\sum _{i}\pi _{i}\mu _{ii}\right)

به طور مثال در مدل Jukes-Cantor پارامتر مقیاس‌گذاری برابر 4/(3μ) است زیرا نرخ خروج از هر وضعیت برابر 3μ/4 است.

مدل JC69 ساده‌ترین مدل جانشینی موجود است. از جمله فرض‌های این مدل برابری تعداد تکرار هر کدام از بازهای موجود در توالی دی‌ان‌ای و برابری نرخ جهش در تمام آن‌ها است

\left(\pi _{A}=\pi _{G}=\pi _{C}=\pi _{T}={1 \over 4}\right) تنها پارامتری که در این مدل استفاده می‌شود \mu است که برابر نرخ کلی جایگزینی در این مدل است. همان‌طور که پیش از گفته شد، این متغیر در زمانی تغییر میانگین نرخ به ۱ به ثابت تبدیل می‌شود.

Q={\begin{pmatrix}{*}&{\mu  \over 4}&{\mu  \over 4}&{\mu  \over 4}\\{\mu  \over 4}&{*}&{\mu  \over 4}&{\mu  \over 4}\\{\mu  \over 4}&{\mu  \over 4}&{*}&{\mu  \over 4}\\{\mu  \over 4}&{\mu  \over 4}&{\mu  \over 4}&{*}\end{pmatrix}}

P={\begin{pmatrix}{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}\end{pmatrix}}

زمانی که طول شاخه، \nu ، بر اساس متوسط تعداد تغییرات در هر مکان اندازه‌گیری می‌شود، داریم:

P_{ij}(\nu )=\left\{{\begin{array}{cc}{1 \over 4}+{3 \over 4}e^{-4\nu /3}&{\mbox{ if }}i=j\\{1 \over 4}-{1 \over 4}e^{-4\nu /3}&{\mbox{ if }}i\neq j\end{array}}\right.

لازم به ذکر است که:

\nu ={3 \over 4}t\mu =({\mu \over 4}+{\mu \over 4}+{\mu \over 4})t

که \nu به معنی متوسط تعداد جایگزینی در زمان t (طول شاخه) برای هر حرف در توالی است، زمانی که نرخ جانشینی برابر \mu است.

در صورتی که نسبت p از تغییرات میان دو توالی در یک حرف داده شده باشد، مدل Jukes-Cantor فاصله‌ی تکاملی میان دو رشته را، بر اساس متوسط تعداد تغییرات، به شکل زیر محاسبه می‌کند.

{\hat {d}}=-{3 \over 4}\ln({1-{4 \over 3}p})={\hat {\nu }}

متغیر p نشان‌دهنده‌ی تعداد جابه‌جایی است که با عنوان فاصله‌ی p شناخته شده و یک آماره‌ی بسنده برای محاسبات در مدل Jukes-Cantor است.

مدل K80 (کیمورا, 1980)^[۱]

مدل k80 تفاوت را میان جایگزینی‌های انتقالی (پورین به پورین یا پیریمیدین به پیریمیدین) و تراگشت (از یک پورین به یک پیریمیدین یا برعکس) مدل می‌کند. در توضیح اصلی کیمورا درباره‌ی مدل، α و β برای نشان دادن نرخ جانشینی‌های مختلف استفاده شده‌اند، اما در حال حاضر، معمولا نرخ تراگشت برابر ۱ قرار داده شده و از κ به عنوان نسبت جایگزینی انتقالی به تراگشت استفاده می‌شود. در مدل K80 فرض می‌شود که تمام حالت‌های پایه دارای احتمال برابر هستند (πT=πC=πA=πG=0.25).

پارامترهای مدل کیمورا به شکل زیر هستند:

که در آن p درصد تعداد حروفی در توالی است که جایگشت انتقالی رخ داده و q درصد تعداد جایگاه‌هایی است که تراگشت رخ داده است.

مدل F81 (Felsenstein 1981)^[۲]

این مدل در واقع گسترش‌یافته‌ی مدل JC69 است به طوری که احتمال‌های پایه‌ی میان بازهای موجود در توالی می‌توانند با هم برابر نباشند (\pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G})

ماتریس نرخ به شکل زیر است:

هنگامی که طول شاخه، ν، بر اساس متوسط تعداد تغییرات در هر مکان از توالی اندازه‌گیری می‌شود، داریم:

مدل HKY85 (Hasegawa های Kishino و یانو 1985)^[۳]

این مدل را می‌توان به عنوان تلفیقی از مدل‌های گسترش‌یافته‌ی Kimura80 و Felsentein81 در نظر گرفت. مدل HKY85 میان نرخ جایگزینی انتقالی و تراگشت با کمک پارامتر κ تفاوت قایل می‌شود و از سوی دیگر اجازه می‌دهد تا احتمال‌های پایه‌ی میان بازهای مختلف متفاوت باشد (\pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G}) [مدل F84 در سال ۱۹۸۴ با پارامترهای دیگری با در نظر گرفتن عدم برابر احتمال‌های پایه توسط Felsenstein ارایه شد^[۴] ^[۵] ]. ماتریس نرخ تغییرات در این مدل به شکل زیر است:

در صورتی که طول شاخه، ν، را با کمک متوسط تعداد تغییرات صورت گرفته در هر حرف از توالی بیان کنیم داریم:

\beta ={\frac {1}{2(\pi _{A}+\pi _{G})(\pi _{C}+\pi _{T})+2\kappa [(\pi _{A}\pi _{G})+(\pi _{C}\pi _{T})]}}

P_{AA}(\nu ,\kappa ,\pi )=\left[\pi _{A}\left(\pi _{A}+\pi _{G}+(\pi _{C}+\pi _{T})e^{-\beta \nu }\right)+\pi _{G}e^{-(1+(\pi _{A}+\pi _{G})(\kappa -1.0))\beta \nu }\right]/(\pi _{A}+\pi _{G})

P_{AC}(\nu ,\kappa ,\pi )=\pi _{C}\left(1.0-e^{-\beta \nu }\right)

P_{AG}(\nu ,\kappa ,\pi )=\left[\pi _{G}\left(\pi _{A}+\pi _{G}+(\pi _{C}+\pi _{T})e^{-\beta \nu }\right)-\pi _{G}e^{-(1+(\pi _{A}+\pi _{G})(\kappa -1.0))\beta \nu }\right]/\left(\pi _{A}+\pi _{G}\right)

P_{AT}(\nu ,\kappa ,\pi )=\pi _{T}\left(1.0-e^{-\beta \nu }\right)

و فرمول برای سایر حالت‌های ممکن از وضعیت‌های حروف را می‌توان با جایگزینی احتمال مناسب از هر باز به دست آورد.

مدل T92 (Tamura 1992)^[۶]

T92 یک مدل ساده‌ی ریاضیاتی برای تخمین تعداد جانشینی‌های نوکلئوتیدها در هر مکان توالی میان دو توالی دی‌ان‌ای با گسترش مدل Kimura80 بوده، به طوری که نسبت به پیوند G+C متمایل است. این روش زمانی کاربردی است که جایگزینی انتقالی-تراگشت بالایی وجود داشته و نسبت به G+C متمایل باشد مانند حالتی که در دی‌ان‌ای میتوکندری مگس سرکه اتفاق می‌افتد.

با داشتن فرکانس

ماتریس تغییرات بازها به شکل زیر است:

فاصله‌ی تکاملی میان دو رشته‌ی بی‌رمز بر اساس این مدل به شکل زیر است:

که در آن و محتوای GC است.

مدل TN93 (تامورا و نی 1993)^[۷]

این مدل تفاوت میان دو حالت جایگزینی انتقالی را در نظر می‌گیرید، به این معنی که (A <-> G) می‌تواند نرخ متفاوتی نسبت به (C<->T) داشته باشد، اما تراگشت‌ها دارای نرخ برابر هستند (هرچند نرخ تراگشت می‌تواند عددی متفاوت از نرخ‌های جایگزینی انتقالی باشد). در این مدل، احتمال هرکدام از پایه‌ها می‌توانند متفاوت باشند (\pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G}).

GTR: مدل تعمیم‌یافته و بازگشت‌پذیر در زمان (Tavaré 1986)^[۸]

این مدل، بی‌طرف‌ترین مدل با استقلال میان حروف و نواحی محدود است که اجازه‌ی برگشت‌پذیری در مدل وجود دارد. مدل برای اولین بار توسط Simon Tavaré در سال ۱۹۸۶ توضیح داده شد.^[۸]

پارامترهای مدل GTR شامل برداری از احتمالات پایدار برای پایه‌های مختلف به شکل {\displaystyle \Pi =(\pi _{T},\pi _{C},\pi _{A},\pi _{G})} است. ماتریس ارتباط میان وضعیت‌های حروف توالی به شکل زیر است:

Q={\begin{pmatrix}{-(\alpha \pi _{C}+\beta \pi _{A}+\gamma \pi _{G})}&{\alpha \pi _{C}}&{\beta \pi _{A}}&{\gamma \pi _{G}}\\{\alpha \pi _{T}}&{-(\alpha \pi _{T}+\delta \pi _{A}+\epsilon \pi _{G})}&{\delta \pi _{A}}&{\epsilon \pi _{G}}\\{\beta \pi _{T}}&{\delta \pi _{C}}&{-(\beta \pi _{T}+\delta \pi _{C}+\eta \pi _{G})}&{\eta \pi _{G}}\\{\gamma \pi _{T}}&{\epsilon \pi _{C}}&{\eta \pi _{A}}&{-(\gamma \pi _{T}+\epsilon \pi _{C}+\eta \pi _{A})}\end{pmatrix}}

که در آن

که پارامترهای بالا پارامترهای جایگزینی انتقالی هستند.

بنابراین، GTR نیازمند ۶ پارامتر جانشینی است بوده و ۴ پارامتر برای فرکانس تعادل است. با توجه به روابط میان پارامترها، تعداد پارامترها می‌تواند به ۹ پارامتر به اضافه‌ی پارامتر \mu (تعداد جانشینی‌ها در واحد زمان) کاهش پیدا کند.

به طور کلی برای محاسبه‌ی تعداد پارامترها، باید تعداد درایه‌های بالای قطر اصلی در ماتریس را شمارش کنیم، به طور مثال برای n حالت ممکن در یک مکان از توالی {{n^{2}-n} \over 2} و سپس n حالت برای نقاط تعادل اضافه شده و چون \mu ثابت در نظر گرفته می‌شود، یکی از این تعداد کم می‌شود.

برای مثال برای توالی‌های امینواسیدها (۲۰ نوع امینواسید استاندارد وجود دارد که پروتئین‌ها را تشکیل می‌دهند)، در این مدل ۲۰۹ پارامتر وجود دارد. در هنگام مطالعه‌ی نواحی رمزشده، معمولا از مدل جانشینی کدون استفاده می‌شود (هر رمز ژنتیکی یک توالی ۳تایی از حروف پایه‌ی دی‌ان‌ای است که یک امینواسید را در پروتئین نشان می‌دهد). 4^{3}=64 کدون وجود دارد، اما نرخ جانشینی میان کدون‌ها که در بیش از یک حرف با هم تفاوت دارند، صفر در نظر گرفته می‌شود، بنابراین {{20\times 19\times 3} \over 2}+64-1=633 پارامتر در مدل وجود دارد.

همچنین ببینید

منابع

↑ Kimura M (1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences". Journal of Molecular Evolution. 16 (2): 111–120. doi:10.1007/BF01731581. PMID 7463489.
↑ Felsenstein J (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–376. doi:10.1007/BF01734359. PMID 7288891.
↑ "Dating of human-ape splitting by a molecular clock of mitochondrial DNA". Journal of Molecular Evolution. 22 (2): 160–174. 1985. doi:10.1007/BF02101694. PMID 3934395.
↑ "Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". Journal of Molecular Evolution. 29 (2): 170–179. 1989. doi:10.1007/BF02100115. PMID 2509717.
↑ "A Hidden Markov Model approach to variation among sites in rate of evolution, and the branching order in hominoidea". Molecular Biology and Evolution. 13 (1): 93–104. 1996. doi:10.1093/oxfordjournals.molbev.a025575. PMID 8583911.
↑ Tamura K (1992). "Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C content biases". Molecular Biology and Evolution. 9 (4): 678–687. PMID 1630306.
↑ "Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Molecular Biology and Evolution. 10 (3): 512–526. 1993. PMID 8336541.
↑ ^۸٫۰ ^۸٫۱ Tavaré S (1986). "Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences" (PDF). Lectures on Mathematics in the Life Sciences. American Mathematical Society. 17: 57–86.

مطالعه بیشتر

"Higher rates of amino acid substitution in rodents than in man". Molecular Phylogenetics and Evolution 1 (3): 211–214. 1992. doi:10.1016/1055-7903(92)90017-B. PMID 1342937.

Li W-H; Ellsworth DL; Krushkal J; Chang BH-J; Hewett-Emmett D (1996). "Rates of nucleotide substitution in primates and rodents and the generation-time effect hypothesis". Molecular Phylogenetics and Evolution. 5 (1): 182–187. doi:10.1006/mpev.1996.0012. PMID 8673286.

لینک های خارجی

DAWG: DNA مجمع با شکاف — رایگان نرم افزار برای شبیه سازی توالی, تکامل,

[1] Kimura M (1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences". Journal of Molecular Evolution. 16 (2): 111–120. doi:10.1007/BF01731581. PMID 7463489.

[2] Felsenstein J (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–376. doi:10.1007/BF01734359. PMID 7288891.

[3] "Dating of human-ape splitting by a molecular clock of mitochondrial DNA". Journal of Molecular Evolution. 22 (2): 160–174. 1985. doi:10.1007/BF02101694. PMID 3934395.

[4] "Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". Journal of Molecular Evolution. 29 (2): 170–179. 1989. doi:10.1007/BF02100115. PMID 2509717.

[5] "A Hidden Markov Model approach to variation among sites in rate of evolution, and the branching order in hominoidea". Molecular Biology and Evolution. 13 (1): 93–104. 1996. doi:10.1093/oxfordjournals.molbev.a025575. PMID 8583911.

[6] Tamura K (1992). "Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C content biases". Molecular Biology and Evolution. 9 (4): 678–687. PMID 1630306.

[7] "Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Molecular Biology and Evolution. 10 (3): 512–526. 1993. PMID 8336541.

[Tavare1986-8] ۸٫۰ ^۸٫۱ Tavaré S (1986). "Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences" (PDF). Lectures on Mathematics in the Life Sciences. American Mathematical Society. 17: 57–86.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]