بیشینه صرفه‌جویی (تبارزایی)

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

بیشینه صرفه‌جویی یا ماکزیمم پارسیمونی (به انگلیسی: Maximum parsimony) یک روش آماری غیر پارامتری است که به طور معمول در تبارزایش (فیلوژنتیک) محاسباتی برای تخمین سیر تبارزایی جانداران استفاده می‌شود. تحت فرض بیشینه صرفه‌جویی با داده‌های موجود درخت تبارزایی بهتر است که براساس فرض به وجود آمدن کمترین تغییرات باشد.

به تفصیل[ویرایش]

بیشینه صرفه‌جویی جزئی از روش‌های تخمین درخت بر اساس شناسه‌ها است که از یک ماتریس گسستهٔ خصیصه‌های تبارزایی برای نتیجه گرفتن یک یا چند درخت بهینه استفاه می‌کند. این روشها با ارزیابی کاندیداهای درخت فیلوژنتیک بر اساس یک معیار آشکار بهینه‌سازی کار می‌کنند. در نهایت درخت با بیشترین امتیاز به عنوان تخمینی از درخت بیان کنندهٔ روابط بین رده‌ها (taxa) شناخته می‌شود. بیشینه صرفه‌جویی با بیشتر انواع داده‌های فیلوژنتیک استفاده می‌شود. و اخیرا تنها روش بر پایهٔ کاراکترها بود که به طور گسترده برای تخمین درخت برای داده‌های ریخت شناسی استفاده می‌شد.

تخمین نژادها مسئلهٔ بدیهی ای نیست. تعداد بسیار زیادی از درختهای فیلوژنتیک ممکن، برای هر سایز قابل قبول از تاگزاها وجود دارند. به عنوان مثال، ده گونه بیشتر از دو میلیون درخت بی ریشهٔ ممکن به وجود می‌آورند. این احتمالات باید جستجو شوند تا درختی با بهترین حالت بهینگی یافت شود. اگرچه، داده‌ها به طور خودکار به یک راه حل سادهٔ ریاضی برای مسئله منجر نمی‌شوند. به طور ایده آل، ما انتظار داریم درختی که ساخته می‌شود بیانگر روابط واقعی بین گره‌ها باشد. بنابراین می‌توانیم بگوییم اگر دو جاندار یک شناسه مشترک داشته باشند، آنها باید بیشتر به هم نزدیک باشند نسبت به یک جاندار ثالث که چنان ویژگی مشترکی را ندارد.

متدهایی که برای تخمین درختهای فیلوژنتیکی استفاده می‌شوند به طور صریح قصد حل کردن تداخل بین داده‌ها را دارند و این کار را با برداشتن درختی که بیشترین شایستگی را برای بیشتر داده‌ها دارد انجام می‌دهند. گاهی اوقات به طور اشتباه فکر می‌کنند که یکی از پیشفرض‌های درخت پارسیمنی نادر بودن همگرایی است.

داده‌های شناسه‌ای[ویرایش]

داده‌های ورودی در یک تحلیل بیشینه صرفه‌جویی برای محدوده‌ای از رده‌ها به شکل شناسه است. هیچ تعریف قبول شده‌ای برای یک کاراکتر فیلوژنتیک وجود ندارد، اما به طور عملی یک شناسه می‌تواند یک مشخصه، یا محوری باشد که رده‌ها در راستای آن با هم متفاوتند. این مشخصه‌ها می‌توانند ریخت‌شناختی، مولکولی، ژنتیکی، فیزیولوژیکی، یا رفتاری باشند. تنها مسئله‌ای که در مورد شناسه‌ها به نظر مورد اتفاق همه می‌رسد این است که تفاوت کاراکتری آنها باید نشانگر و منعکس کننده رابطهٔ ارث بری آنها باشد.

هر شناسه‌ای به وضعیتهای کاراکتری گسسته‌ای تقسیم بندی می‌شود، که در آنها تغییرات مشاهده شده دسته بندی شده‌اند. وضعیتهای کاراکتر اغلب به صورت توصیف کننده‌ها فرموله می‌شوند، که شرایط فرعی کاراکتر را توصیف می‌کنند. به عنوان مثال کاراکتر رنگ چشم می‌توانند حالات آبی و قهوه‌ای را داشته باشد. کاراکترها دو یا چند حالت می‌توانند داشته باشند.

کد کردن کاراکترها برای تحلیلهای فیلوژنتیکی علم دقیقی نیست، و مسائل پیچیده و قابل توجهی در این مورد وجود دارند. به طور عمومی، تاکسونها با یک حالت امتیاز دهی می‌شوند اگر آنها به یکدیگر در یک مشخصه شبیه تر باشند تا نسبت به هم در حالتی مختلف. این مسئله وقتی که حالات کاراکترها به طور واضح مشخص نشده‌است یا وقتی که آنها نتوانند تمام تغییرات در یک کاراکتر را پوشش دهند چندان مسئلهٔ سرراستی نیست. حال سوال این است که چه طور می‌توان کاراکتر ذکر شده در بالا را برای یک تاکسون مربوط به یک شخص با چشم فندقی رنگ امتیازدهی کرد؟ همانطور که در بالا اشاره شد، کد کردن شناسه‌ها به طور عمومی بر پایهٔ شباهت است: چشمان رنگ فندقی و سبز ممکن است با هم آبی شوند، آنها به آن رنگ شبیه ترند (روشن بودن)، و سپس آن کاراکتر می‌تواند به صورت روبه رو کد شود «رنگ چشم: روشن؛ تاریک». به طور جایگزین، کاراکترهایی با حالات چندگانه نیز می‌توانند موجود باشند مانند: «رنگ چشم: قهوه ای؛ فندوقی؛ آبی؛ سبز»

نمونه گیری تاکسون[ویرایش]

زمانی که برای یک آنالیز صرفه‌جویی (یا هر آنالیز فیلوژنتیکی دیگر) نیاز است به تعداد تاکسون ها (و کاراکترهای) موجود در آنالیز بستگی دارد. بعلاوه، چون تاکسون بیشتر به معنی این است که شاخه‌های بیشتری باید تخمین زده شوند، عدم قطعیت بیشتری در آنالیزهای بزرگ انتظار می‌رود. زیرا مجموعهٔ داده‌ها که موجب صرف زمان وپول می‌شوند اغلب به طور مستقیم با تعداد تاکسونها مقیاس می‌شوند، بیشتر تحلیلها تنها تعدادی از تاکسون‌ها که قابل نمونه گیری اند را در بر می‌گیرند. در حقیقت، بعضی از نویسنده‌ها راضی شده‌اند که چهار تاکسون(کمترین تعداد تاکسون برای ساخت یک درخت بدون ریشهٔ با معنی) تمام چیزی هستند که برای یک آنالیز دقیق فیلوژنتیکی لازم اند. و اینکه در تبارزایی شناسه‌های بیشتر با ارزشتر از تاکسونهای بیشترند. این عقیده منجر به مجادلهٔ شدیدی دربارهٔ نمونه‌های تاکسون شده‌است.

مطالعات تجربی، تئوری، و شبیه سازی منجر به اثباتهای متعددی از اهمیت نیاز به تعداد کافی نمونه تاکسون شده‌است. بیشتر اینها را می‌توان به یک مشاهده ساده خلاصه سازی کرد: یک ماتریس داده فیلوژنتیک ابعادی به اندازهٔ کاراکترها در تاکسونها دارد. دو برابر کردن تعداد تاکسون منجر به دو برابر شدت اطلاعات می‌شود، دقیقا همانند وقتی که تعداد شناسه‌ها دو برابر شود. هر تاکسون نمایانگر یک نمونهٔ جدید برای هر کاراکتر است، اما به طور مهمتر، تاکسون معمولا نمایانگر یک ترکیب جدید از حالات کاراکترهاست. این حالات شناسه‌ها نه تنها می‌توانند مکان تاکسون روی درخت را مشخص کنند، بلکه می‌توانند تمام اطلاعات کل تحلیل را بدهند.

اگرچه تا به حال مطالعات زیادی صورت گرفته‌است، هنوز کار زیادی روی استراتژیهای مربوط به نمونه گیری تاکسونها باید انجام شود. به دلیل پیشرفت در رایانه‌ها و کاهش قیمت و افزایش خودکارسازی ترتیب‌دهی مولکولی (molecular sequencing)، اندازهٔ نمونه‌ها به طور کلی در حال افزایش اند و مطالعاتی که روابط بین صدها تاکسون را بررسی می‌کنند در حال رواج یافتن و عمومی شدن هستند. البته این بدین معنی نیست که اضافه کردن کاراکتر نمی‌تواند مفید باشد؛ تعداد کاراکترها نیز به همان شکل در حال افزایش است.

واکاوی[ویرایش]

یک واکاوی (تحلیل) بیشینه صرفه‌جویی بسیار راحت و سرراست است. درخت‌ها بر اساس درجه و میزان بهینه بودن توزیع کاراکترها امتیاز دهی می‌شوند. بهینه ترین درخت به عنوان درختی که طبق فرض روابط بین تاکسونها را بیان می‌کند انتخاب می‌شود.

درختها با استفاده از الگوریتم ساده‌ای که، مشخص می‌کند چند گام برای توضیح دادن توزیع بین هر کاراکتر از داده‌ها لازم است ارزیابی می‌شوند. یک قدم لزوما یک تغییر از یک وضعیت در یک کاراکتر به وضعیتی دیگر است، اگرچه با کاراکترهای مرتب بعضی از انتقال ها به بیش از یک گام نیاز دارند. بر خلاف عقیده ی عموم الگوریتم به طور صریح به گره‌ها وضعیت کاراکترها را نسبت نمی‌دهد: کمترین قدم ها می‌توانند شامل چندین مقداردهی و توزیع انتقال با هزینه ی مساوی باشند و چیزی که بهینه می‌شود تعداد کل تغییرات است.

تعداد درخت های تبارزایشی ممکن برای هشت تاکسون یا بیشتر، بسیار بیشتر از این است که تماما قابل جستجو باشند. بنابراین تعدادی از الگوریتم ها برای جستجو بین درختهای ممکن بوجود آمدند. بسیاری از این روشها بر این اساس اند که ابتدا یک درخت اولیه می‌سازند و سپس این درخت را تغییر می‌دهند تا ببینند آیا درختی با امتیاز بیشتر بدست می‌آورند یا خیر.

درختهایی که از جستجوی پارسیمنی بدست می‌آیند بدون ریشه‌اند: آنها هرگونه ارتباط ممکن بین تاکسون‌ها را نمایش می‌دهند اما فاقد هرگونه اطلاعات در مورد زمان نسبی انشعاب از یکدیگر هستند. یک شاخهٔ خاص توسط کاربر به عنوان ریشه انتخاب می‌شود. سپس این شاخه از بقیه شاخه‌های درخت به بیرون می‌آید تا در نهایت با یکدیگر یک گروه وابسته به یک ریشه تشکیل دهند. این نوعی از زمان نسبی را برای درخت بیان می‌کند. انتهاب نادرست ریشه می‌تواند منجر به روابط ناصحیح روی درخت شود، حتی اگر شکل بدون ریشهٔ درخت درست بوده باشد.

جک نایفینگ Jackknifing و بوت استرپینگ که از روشهای شناخته شدهٔ بازنمونه گیری هستند توسط تحلیل پارسیمنی به کار بسته شده‌اند. جکنایف که شامل بازنمونه گیری بدون جایگذاری است می‌تواند روی تاکسونها یا کاراکترها به کار بسته شود. در حالت اول، یعنی بازنمونه گیری روی تاکسون‌ها، تفسیرش ممکن است پیچیده شود؛ زیرا متغیر مورد نظر درخت است و مقایسه درختهایی با تاکسونهای مختلف کار ساده‌ای نیست. بوت استرپ، که روش بازنمونه گیری با جایگذاری است، تنها روی کاراکترها استفاده می‌شود، زیرا اضافه کردن تاکسونهای دوگانه نتایج یک تحلیل پارسیمنی را تغییر نمی‌دهد. بوت استرپ بیشترین کاربردش در تبارزایش است. هر دوی روشها شامل تعدادی تکرار دلخواه ولی زیاد هستند. که هر تکرار شامل تغییر داده‌های اصلی و سپس تحلیل آنهاست. درخت‌های با بیشترین صرفه‌جویی از هر تحلیل انتخاب می‌شوند و معمولا نتایج روی یک درخت با قانون موافقت عمومی ۵۰ درصد از اکثریت همراه با شاخه‌هایی که روی آنها درصد درختهای بیشینه صرفه‌جویی به دست آمده از بوت استرپ برچسب گذاری شده‌است به نمایش در می‌آید. این درصد بوت استرپ (که برخلاف بعضی از گفته‌ها یک p-value نیست) به عنوان معیاری برای پشتیبانی استفاده می‌شود. به طور تکنیکی در واقع این معیاری برای قابلیت تکرار پذیری است، یا به عبارت دیگر احتمال اینکه اگر تاکسون‌ها دوباره نمونه گیری شوند شاخهٔ مذکور مجددا بازیابی شود. داده‌های تجربی مربوط به انواع ویروسی پیشنهاد می‌دهند که درصد بوت استرپ تخمین خوبی برای قابلیت تکرار پذیری نیست، اما تخمین معقولی برای اندازه گیری دقت است. در حقیقت نشان داده شده‌است که درصد بوت استرپ به عنوان تخمین زننده‌ای از دقت، اریب است و این اریبی به طور میانگین منجر به کم تخمین زدن اطمینان می‌شود (بطوریکه ۷۰ درصد پشتیبانی ممکن است درواقع ۹۵ درصد اطمینان را نشان دهد). اگرچه، جهت اریبی در موارد خاص نمی‌تواند تعیین شود، بنابراین فرض اینکه مقادیر بالای پشتیبانی بوت استرپ نشان دهندهٔ مقادیر بالاتری از اطمینان اند گارانتی نشده‌است.

مشکلات بیشینه صرفه‌جویی[ویرایش]

An example of long branch attraction. Branches A & C have a high number of substitutions.  

ماکزیمم پارسیمونی یک روش بسیار ساده‌است وب همین دلیل مشهور است. اگرچه به صورت آماری سازگار (statistically consistent) نیست. بدین معنی که، با احتمال بالایی تضمین نمی‌کند که درختی که می‌دهد درخت بهینه باشد حتی اگر داده‌ها کافی باشند. همانطور که در سال ۱۹۸۷ توسط Joe Felsenstein [۱] ثابت شد، ماکزیمم پارسیمنی تحت شرایط خاصی سازگار نیست. مواردی که در آنها این اتفاق می‌افتد long branch attraction نامیده می‌شوند و بعنوان مثال زمانی که طول شاخه‌ها بری تو کاراکتر A,C بلند است اما برای دو شاخهٔ دیگر (B,D) کوتاه است اتفاق می‌افتد. A,B از یک پدر مشترک اند و همین طور C,D.

برای ساده سازی فرض کنید که ما یک کاراکتر دودویی تک را در نظر گرفته‌ایم (این کاراکتر می‌تواند + یا - باشد). به علت اینکه فاصلهٔ B تا D کم است، در بیشتر مواقع، B ,D مثل هم خواهند بود. در اینجا فرض می‌کنیم که هردو + باشند (+ و - به صورت دلخواه تعیین می‌شوند یا با یکدیگر جابه جا می‌شوند و این فقط به تعریف ربط دارد). اگر اینطور باشد، چهار حالت ممکن دیگر باقی می‌ماند. A و C هر دو + باشند، که در این حالت تمام تاکسونها مثل هم اند و تمام درختها یک طول دارند. A می‌تواند + و C می‌تواند - باشد، که در این حالت فقط یک کاراکتر متفاوت است، و ما نمی‌توانیم چیزی از آن یاد بگیریم، زیرا هر سه درخت در این حالت یک طول دارند. به طور مشابه، A می‌تواند - و B می‌تواند + باشد. تنها حالت ممکنی که باقی می‌ماند این است که A و C هر دو - باشند. در این حالت، A و C را در یک گروه با هم قرار می‌دهیم و B,D را هم با یکدیگر در گروهی دیگر قرار می‌دهیم. در نتیجه، وقتی درختی از این نوع داریم، هرچه بیشتر داده جمع آوری کنیم(مثلا هرچه کاراکترهای بیشتری را مطالعه کنیم) گرایش و حرکت ما به سمت درخت اشتباه بیشتر خواهد بود.

انتقادات[ویرایش]

گفته شده‌است که یک مشکل عمده، به ویژه در دیرین‌شناسی، این است که بیشینه صرفه‌جویی فرض می‌کند که تنها راهی که دو گونه می‌توانند نوکلئوتیدها را در یک مکان به اشتراک بگذارند این است که به طور ژنتیکی با هم در ارتباط باشند. این بدین معنی است که کاربردهای فیلوژنتیکی پارسیمنی فرض می‌کند که تمام شباهت‌ها به خاطر هومولوگ بودن است. و بدون شک این درست نیست: مانند تمام روشهای دیگر که بر پایهٔ شناسه‌ها هستند، پارسیمنی برای آزمایش طبیعت هومولوگی شباهتها است و این کار را با یافتن بهترین ساختاری که این شباهتها را توصیف کند انجام می‌دهد.

معمولا بیان می‌شود که پارسیمنی ارتباطی با استنباط واقعی فیلوژنتیک ندارد. اما در بیشتر مواقع جایگزین صریحی برای آن پیشنهاد نمی‌شود. و وقتی که هیچ متد جایگزینی وجود نداشته باشد استفاده از هر متد آماری بهتر از استفاده نکردن از هیچ متد آماری است. آنالیز پارسیمنی از تعدادی تغییر در کاراکترها روی درخت استفاده می‌کند تا بهترین درخت را انتخاب کند، اما این به این معنی نیست که در واقع هم تمام این تغییرات اتفاق افتاده باشد. در عمل این تکنیک قدرتمند است، زیراماکزیمم پارسیمنی به دلیل انتخاب درخت با کمترین تغییرات کمترین اریبی را دارد.

بیشینه صرفه‌جویی همچنین گاهی اینگونه توجیه می‌شود که «ساده ترین راه ممکن برای توجیه، بهترین راه است.»، یک تعمیم از اصل روکام. بیشینه صرفه‌جویی راهی را ترجیح می‌دهد که کمترین تعداد فرض بررسی نشده و نتایج غیر قابل پشتیبانی را داشته باشد. در واقع به دنبال راه حلی می‌گردد که فاصلهٔ تئوری تا داده‌ها را کم کند. این یک روش مشترک در علم است، مخصوصا وقتی که مسئله به قدری پیچیده‌است که مدلهای ساده جوابگو نیستند. بیشینه صرفه‌جویی به هیچ وجه لزوما یک فرض ساده را تولید نمی‌کند. در حقیقت، به عنوان یک قانون کلی، بیشتر کاراکترهای مجموعهٔ داده‌ها به قدری نویز دارند که حقیقتا هیچ راه ساده‌ای ممکن نیست.

جایگزین‌ها[ویرایش]

روشهای زیاد دیگری برای استنباط نژادها بر اساس داده‌های کاراکتری وجود دارند. که هرکدام فواید و مضرات مربوط به خودشان را دارند. بیشتر این روشها طرفداران و مخالفان سرسختی دارند. بیشینه صرفه‌جویی به طور ویژه به عنوان یک روشی که از نظر فلسفی قابل قبول است بیان می‌شود.

درستنمایی بیشینه[ویرایش]

درستنمایی ماکزیمم یکی از معروفترین روشهای جایگزین است. درستنمایی ماکزیمم هم مانند پارسیمنی یک معیار سنجش بهینگی است. به طور مکانیکی روش درستنمایی ماکزیمم همانند صرفه‌جویی درختها را بر اساس داده‌های کاراکتری امتیازدهی می‌کند و درخت با بهترین امتیاز انتخاب می‌شود. این روش یک روش آماری پارامتری است. اینگونه متدها بالقوه قدرتمندتر از روشها غیر پارامتری مثل پارسیمنی هستند، اما تنها وقتی این مطلب درست است که مدلی که استفاده شده‌است تقریب خوبی از پروسهٔ بوجود آمدن داده‌ها باشد. می‌توان گفت، درستنمایی ماکزیمم از نظر شهرت استفاده در دنباله-داده‌های نوکلئوتیدی و استنباط تبارزایشی بیزی، از پارسیمنی پیشی گرفته‌است.

به طور ساده، تخمین درست‌نمایی بیشینه مقادیری را برای پارامترهای مدل محاسبه می‌کند که در آن مقدار تابع درست‌نمایی بیشینه باشد. با استفاده از این روش، اگر توزیع داده‌ها معلوم باشد (مثلاً داده‌ها از توزیع نرمال پیروی کنند)، می‌توان با در دست داشتن تنها چند نمونه از کل جامعهٔ هدف، تخمین خوبی از مقدار پارامترها در کل جامعهٔ هدف به دست آورد. مثلاً اگر توزیع قد زرافه‌ها نرمال باشد، با استفاده از این روش می‌توان تنها قد چند زرافه ماده را اندازه گرفت و به تخمین درستی از میانگین قد تمام زرافه‌های ماده رسید. [۲]

استنباط تبارزایشی بیزی[ویرایش]

فیلوژنتیک بیزی از تابع دستنمایی استفاده می‌کند، و به طور معمول از همان مدل ماکزیمم درستنمایی برای پیاده سازی اش استفاده می‌شود. در حالی که چه از نظر تئوری و چه در عمل کاملا متفاوت است. فیلوژنتیک بیزی از قضیه بیز استفاده می‌کند، که احتمال پسین درخت را با درستنمایی داده‌ها مرتبط می‌سازد. اگرچه، برخلاف بیشینه صرفه‌جویی و روش‌های درستنمایی، در این روش یک یا تعدای از درخت‌های به طور مساوی بهینه تولید نمی‌شوند. تحلیل بیزی از درستنمایی درختها در شبیه سازی زنجیر مارکف مونت کارلو (Markov Chain Monte Carlo) برای نمونه گیری از درخت‌ها متناسب با میزان درستنمایی آنها بهره می‌برد، بنابراین یک نمونه معتبر از درختها تولید می‌کند.

روشهای بر پایه ماتریس فاصله‌ها[ویرایش]

روشهای غیر پارامتری بر مینای فاصله در ابتدا روی داده‌های فنتیک(phenetic)با استفاده از فاصله‌های دو به دو به کار برده شدند. این فاصله‌ها بعدا برای ساخت درخت (یک تبارنگار با شاخه‌های با طول دارای اطلاعات) مورد استفاده قرار گرفتند. ماتریس فاصله‌ها از منابع مختلفی می‌تواند به دست آید، شامل فاصله‌های اندازه گیری شده(مثل فاصله‌های به دست آمده در مطالعات ایمنی‌شناسی) یا تحلیلهای ریخت‌سنجی، فرمول‌های مختلف اندازه گیری فاصلهٔ بین دو جفت مثل فرمول اقلیدس هنگامی که برای کاراکترهای ریخت‌شناسی گسسته مورد استفاده قرار می‌گیرد، یا فاصله‌های ژنتیکی از دنباله‌ها. برای داده‌های شناسه‌ای تبارزایی، مقادیر فاصله‌های خام می‌توانند به سادگی با شمارش تعداد اختلافات وضعیت شناسه‌ها در یک جفت محسابه کرد(فاصله منهتن) (Manhattan distance).

منابع[ویرایش]

  • مشارکت‌کنندگان ویکی‌پدیا، «Maximum Parsimony»، ویکی‌پدیای انگلیسی، دانشنامهٔ آزاد (بازیابی در ۲۷ می‌۲۰۱۱).