یادگیری ماشین در بیوانفورماتیک: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده

درخط

نسخهٔ ‏۲۴ ژوئیهٔ ۲۰۱۹، ساعت ۱۲:۵۳

با پیشرفت تکنولوژی و افزایش چشمگیر داده‌های زیستی، علاوه بر ذخیره‌سازی و نگهداری، استخراج اطلاعات سودمند از این حجم از داده نیز چالش بزرگی را برای پژوهشگران به وجود آورده است. به این منظور، برای به دست آوردن دانش از داده‌های زیستی از ابزارها و روش‌های یادگیری ماشین استفاده می‌شود.^[۱] یادگیری ماشین که زیرشاخه‌ای از علوم رایانه است، دارای کاربرد‌های بسیاری در بیوانفورماتیک است. بیوانفورماتیک دانشی است که به جنبه‌های ریاضی و محاسباتی زیست‌شناسی برای فهم و پردازش داده‌های زیستی می‌پردازد.^[۲]

پیش از ظهور روش‌های یادگیری ماشین در بیوانفورماتیک، الگوریتم‌های بیوانفورماتیک به صورت دست‌نویس و غیرخودکار برنامه‌نویسی می‌شدند، که برای مسائلی مانند پیش‌بینی ساختار پروتئین بسیار دشوار بوده است. روش‌هایی در یادگیری ماشین مانند یادگیری عمیق به الگوریتم این اجازه را می‌دهد که از روی ویژگی‌های اولیه‌ی داده‌ی ورودی ویژگی‌هایی پیچیده‌تر را برای به کارگیری در الگوریتم یادگیری بسازد. این نوع سیستم‌ها با داشتن حجم بزرگی از داده برای یادگیری می‌توانند پیش‌بینی‌های کاملا پیچیده‌ای را انجام دهند. در سال‌های اخیر حجم داده‌های زیستی به شدت افزایش یافته است، که این موضوع استفاده از سیستم‌های گفته شده را برای پژوهشگران بیوانفورماتیک میسر می‌کند.^[۲]

یادگیری ماشین در شش شاخه از زیست‌شناسی مورد استفاده قرار می‌گیرد. این شاخه‌ها عبارتند از: ژنومیک، پروتئومیک، ریزآرایه، زیست‌شناسی دستگاه‌ها، تکامل و متن‌کاوی.

زیرشاخه‌هایی از بیوانفورماتیک که در آن‌ها از روش‌های یادگیری ماشین استفاده می‌شود.^[۳]

کاربرد‌ها

ژنومیک

نمودار رشد نمایی تعداد رشته‌های WGS و GenBank. منحنی آبی مربوط به WGS و منحنی قرمز مربوط به GenBank است. GenBank یک پایگاه داده برای رشته‌های ژنوم است که توسط مرکز ملی اطلاعات زیست‌فناوری (NCBI) منتشر شده است.^[۴]

ژنومیک شامل مطالعه‌ی ژنوم موجودات زنده، که رشته‌ی دی‌ان‌ای کامل آن‌ها است، می‌شود. با وجود اینکه داده‌های ژنومیک به دلیل مشکلات فنی در توالی‌یابی یک قطعه از دی‌ان‌ای در طول زمان ناقص بوده است، تعداد رشته‌های موجود به صورت نمایی در حال افزایش است. برخلاف افزایش نمایی این نوع از داده‌ی خام، تفسیر زیستی آن با سرعت بسیار کمتری انجام می‌شود. به این دلیل به روش‌های یادگیری ماشین برای تشخیص محل ژن‌هایی که به پروتئین ترجمه می‌شوند، روی آورده می‌شود. این مسأله به مسأله‌ی ژن‌یابی معروف است.

علاوه بر مسأله‌ی ژن‌یابی، روش‌های یادگیری ماشین در مسأله‌ی هم‌ترازسازی چند توالی نیز استفاده می‌شود. در این مسأله، تعداد زیادی رشته‌ی دی‌ان‌ای یا اسید آمینه به منظور یافتن نواحی مشابه هم‌ترازسازی می‌شوند. این نواحی مشابه می‌توانند نشان‌دهنده‌ی اطلاعاتی در مورد پیش‌زمینه‌ی تکاملی این رشته‌ها باشند.^[۲]

پروتئومیک

پروتئین‌ها که رشته‌هایی متشکل از اسید آمینه‌ها هستند، بخش بزرگی از کارایی و عملکرد خود را از تاشدگی می‌گیرند که به آن‌ها ساختاری سه‌بعدی می‌دهد. این ساختار شامل ۴ لایه که به آن‌ها ساختار اول تا چهارم گفته می‌شود، می‌شود. ساختار اولیه‌ی پروتئین نشان‌دهنده‌ی توالی اسید آمینه‌ها است و ساختار دوم آن شامل مارپیچ‌های آلفا و صفحات بتا می‌شود.

از آن‌جایی که ساختارهای سوم و چهارم وابستگی زیادی به ساختار دوم دارند، در زیرشاخه‌ی پروتئومیک توجه زیادی به ساختار دوم می‌شود. به دست آوردن ساختار کامل و دقیق پروتئین فرآیندی بسیار پیچیده و زمان‌گیر است. پیش از استفاده از روش‌های یادگیری ماشین، پژوهشگران سیستم‌های پیش‌بینی ساختار پروتئین را به صورت دستی پیاده‌سازی می‌کردند. امروزه روش‌های یادگیری ماشین با به دست آوردن خودکار ویژگی‌های داده به دقت ٪۸۴-۸۲ رسیده‌اند. در حال حاظر الگوریتم سرآمد در حوضه‌ی پیش‌بینی ساختار دوم از سیستمی به نام DeepCNF استفاده می‌کند که بر اساس مدل شبکه‌ی عصبی مصنوعی، به دقت ٪۸۴ در دسته‌بندی اسید آمینه‌های یک رشته‌ی پروتئین به دسته‌های مارپیچ، صفحه و سیم‌پیچ رسیده است. از لحاظ تئوری، حداکثر دقت قابل دستیابی در این مسأله برابر ٪۹۰-۸۸ است.

روش‌های یادگیری ماشین در مسأله‌های دیگری مانند پیش‌بینی زنجیر جانبی و مدل کردن خمیدگی‌های پروتئین نیز استفاده می‌شوند.^[۲]

ریزآزایه

ریزآرایه یکی از انواع آزمایشگاه روی تراشه است که برای جمع‌آوری داده از مواد زیستی با مقدار بالا استفاده می‌شود. یادگیری ماشین می‌تواند در آنالیز این نوع داده کمک کند و در مواردی مانند مشخص کردن الگوهای بیان ژن‌ها، دسته‌بندی و استنتاج از شبکه‌های ژنتیکی مورد استفاده قرار گیرد.

این تکنولوژی به طور ویژه برای نظارت بر بیان ژن‌های یک ژنوم به منظور تشخیص انواع مختلف سرطان استفاده می‌شود. یکی از مهمترین مسأله‌ها در این عرصه تشخیص ژن‌هایی است که بیان شده‌اند. حجم بالای داده و وجود داده‌های بی‌ربط، این مسأله را سخت‌تر می‌کند. روش‌های دسته‌بندی در یادگیری ماشین مانند شبکه‌ی تابع پایه شعاعی، یادگیری عمیق، دسته‌بندی‌کننده‌ی بیزی، درخت تصمیم و جنگل تصادفی در این مسأله استفاده می‌شوند.^[۲]

زیست‌شناسی دستگاه‌ها

زیست‌شناسی دستگاه‌ها به بررسی رفتارهای شدید فعل و انفعالات پیچیده در بین اجزاء ساده‌ی زیستی می‌پردازد. چنین اجزائی می‌توانند شامل مولکول‌هایی مانند دی‌ان‌ای، آران‌ای، پروتئین‌ها و متابولیت‌ها شوند.

یادگیری ماشین در مدل کردن فعل و انفعالات پیچیده در سیستم‌هایی مانند شبکه‌های ژنتیکی، شبکه‌های انتقال سیگنال و مسیرهای متابولیکی به کار می‌آید. مدل‌های گرافیکی احتمالاتی یکی از پرکاربردترین روش‌ها در مدل کردن شبکه‌های ژنتیکی هستند. علاوه بر این از روش بهینه‌سازی زنجیره مارکوف نیز در مسأله‌هایی مانند تشخیص نواحی اتصال فاکتور رونویسی استفاده می‌شود. الگوریتم‌های ژنتیکی که روش‌هایی بر اساس روند طبیعی تکامل هستند در مدل کردن شبکه‌های ژنتیکی و ساختارهای تنظیم‌کننده مورد استفاده قرار می‌گیرند.

کاربردهای دیگر یادگیری ماشین در زیست‌شناسی دستگاه‌ها عبارتند از: پیش‌بینی عملکرد آنزیم‌ها، آنالیز داده‌ی ریزآرایه‌های توان بالا و پیش‌بینی عملکرد پروتئین.

تکامل

در علم تکامل، به خصوص در بازسازی درخت تبارزایی نیز از روش‌های یادگیری ماشین استفاده می‌شود. درخت تبارزایی درختی است که نشان‌دهنده‌ی روابط تکاملی در میان انواع مختلف گونه‌های زیستی، بر اساس شباهت ژنتیکی آن‌ها است. یک دسته از روش‌های مورد استفاده برای یافتن گونه‌هایی که از لحاط ژنتیکی به یکدیگر نزدیک هستند، روش‌های خوشه‌بندی از جمله k-medoids ،k-means و DBSCAN هستند. در بین این روش‌ها، DBSCAN دقت و سرعت بیشتری در خوشه‌بندی داده‌های ژنتیکی دارد.^[۵] علاوه بر این روش‌ها، از روش‌های یادگیری عمیق مانند شبکه‌های عصبی پیچشی نیز استفاده می‌شود.^[۶]

متن‌کاوی

با افزایش تعداد نشریات زیست‌شناسی جست‌و‌جو و جمع‌آوری اطلاعات در مورد موضوعی خاص به امری دشوار تبدیل شد. به این امر استخراج دانش گفته می‌شود. جمع‌آوری اطلاعات از تمامی منابع موجود در مورد داده‌های زیستی بسیار مهم است چرا که این اطلاعات در ادامه می‌توانند به تولید دانش زیستی جدید با استفاده الگوریتم‌های یادگیری ماشین کمک کنند. برای استخراج دانش از گزارش‌هایی که به دست انسان تولید شده‌اند، می‌توان از روش‌های پردازش زبان طبیعی استفاده کرد.^[۲]

سایر کاربرد‌ها

مثالی از مسأله‌ی جداسازی هسته‌ی سلول. در این تصویر مرز‌های هسته‌ها و ناحیه‌ی مربوط به هر هسته مشخص شده است.^[۷]

یکی از زیرشاخه‌هایی که روش‌های یادگیری ماشین در آن نقش مهمی دارند آنالیز تصاویر زیستی است. در این زیرشاخه به طراحی روش‌هایی برای آنالیز محاسباتی تصاویر زیستی پرداخته می‌شود. به صورت مرسوم، آنالیز تصاویر زیستی به دست خود انسان انجام می‌شود. این روش کند و پرهزینه است و نتیجه‌ی آن وابسته به شخصی است که تصاویر را آنالیز می‌کند. علاوه بر این، میکروسکوپ‌های خودکار مدرن قادر به تولید صدها تا هزاران تصویر در هر ساعت هستند، که آنالیز دستی این تصاویر را غیرممکن می‌کند. به همین دلیل از روش‌های بینایی ماشین و تشخیص الگو در آنالیز تصاویر زیستی کمک گرفته می‌شود. یکی از بزرگترین زیرمجموعه‌ها از تصاویر زیستی که به آنالیز خودکار نیاز دارد، تصاویر میکروسکوپ‌های فلئورسانس است. برای این گروه از تصاویر، مسأله‌های جداسازی سلول‌ها، دسته‌بندی واکنش‌های فنوتیپی و تصمیمات مربوط به واکنش‌های مشتق از آن، به طور معمول مطرح می شوند.^[۸]

از زیرشاخه‌های دیگری که در آن‌ها از روش‌های یادگیری ماشین استفاده می‌شود می‌توان به طراحی پرایمر، آنالیز داده‌های طیف‌سنج جرمی و ترجمه‌ی معکوس پروتئین‌ها اشاره کرد.

موضوعات مرتبط

منابع

↑ Larrañaga, Pedro; Calvo, Borja; Santana, Roberto; Bielza, Concha; Galdiano, Josu; Inza, Iñaki; Lozano, José A.; Armañanzas, Rubén; Santafé, Guzmán (2006-03-01). "Machine learning in bioinformatics". Briefings in Bioinformatics (به انگلیسی). 7 (1): 86–112. doi:10.1093/bib/bbk007. ISSN 1467-5463.
↑ ^۲٫۰ ^۲٫۱ ^۲٫۲ ^۲٫۳ ^۲٫۴ ^۲٫۵ "Machine learning in bioinformatics". Wikipedia (به انگلیسی). 2019-07-10.
↑ Larrañaga, Pedro; Calvo, Borja; Santana, Roberto; Bielza, Concha; Galdiano, Josu; Inza, Iñaki; Lozano, José A.; Armañanzas, Rubén; Santafé, Guzmán (2006-03-01). "Machine learning in bioinformatics". Briefings in Bioinformatics (به انگلیسی). 7 (1): 86–112. doi:10.1093/bib/bbk007. ISSN 1467-5463.
↑ «GenBank and WGS Statistics». www.ncbi.nlm.nih.gov. دریافت‌شده در ۲۰۱۹-۰۷-۲۳.
↑ Mahapatro, Gayatri; Mishra, Debahuti; Shaw, Kailash; Mishra, Sashikala; Jena, Tanushree (2012). "Phylogenetic Tree Construction for DNA Sequences using Clustering Methods". Procedia Engineering (به انگلیسی). 38: 1362–1366. doi:10.1016/j.proeng.2012.06.169.
↑ Schrider, Daniel R.; Hochuli, Joshua; Suvorov, Anton (2019-06-18). "Accurate inference of tree topologies from multiple sequence alignments using deep learning". bioRxiv (به انگلیسی): 559054. doi:10.1101/559054.
↑ Coelho, Luis Pedro; Shariff, Aabid; Murphy, Robert F. (2009-6). "Nuclear segmentation in microscope cell images: A hand-segmented dataset and comparison of algorithms". (:unav). doi:10.1109/isbi.2009.5193098. PMC 2901896. PMID 20628545. {{cite journal}}: Check date values in: |date= (help)نگهداری یادکرد:فرمت پارامتر PMC (link)
↑ Coelho, Luis Pedro; Glory-Afshar, Estelle; Kangas, Joshua; Quinn, Shannon; Shariff, Aabid; Murphy, Robert F. (2010). Blaschke, Christian; Shatkay, Hagit (eds.). "Principles of Bioimage Informatics: Focus on Machine Learning of Cell Patterns". Linking Literature, Information, and Knowledge for Biology. Lecture Notes in Computer Science (به انگلیسی). Springer Berlin Heidelberg: 8–18. doi:10.1007/978-3-642-13131-8_2. ISBN 9783642131318.

[1] Larrañaga, Pedro; Calvo, Borja; Santana, Roberto; Bielza, Concha; Galdiano, Josu; Inza, Iñaki; Lozano, José A.; Armañanzas, Rubén; Santafé, Guzmán (2006-03-01). "Machine learning in bioinformatics". Briefings in Bioinformatics (به انگلیسی). 7 (1): 86–112. doi:10.1093/bib/bbk007. ISSN 1467-5463.

[:0-2] ۲٫۰ ^۲٫۱ ^۲٫۲ ^۲٫۳ ^۲٫۴ ^۲٫۵ "Machine learning in bioinformatics". Wikipedia (به انگلیسی). 2019-07-10.

[3] Larrañaga, Pedro; Calvo, Borja; Santana, Roberto; Bielza, Concha; Galdiano, Josu; Inza, Iñaki; Lozano, José A.; Armañanzas, Rubén; Santafé, Guzmán (2006-03-01). "Machine learning in bioinformatics". Briefings in Bioinformatics (به انگلیسی). 7 (1): 86–112. doi:10.1093/bib/bbk007. ISSN 1467-5463.

[4] «GenBank and WGS Statistics». www.ncbi.nlm.nih.gov. دریافت‌شده در ۲۰۱۹-۰۷-۲۳.

[5] Mahapatro, Gayatri; Mishra, Debahuti; Shaw, Kailash; Mishra, Sashikala; Jena, Tanushree (2012). "Phylogenetic Tree Construction for DNA Sequences using Clustering Methods". Procedia Engineering (به انگلیسی). 38: 1362–1366. doi:10.1016/j.proeng.2012.06.169.

[6] Schrider, Daniel R.; Hochuli, Joshua; Suvorov, Anton (2019-06-18). "Accurate inference of tree topologies from multiple sequence alignments using deep learning". bioRxiv (به انگلیسی): 559054. doi:10.1101/559054.

[7] Coelho, Luis Pedro; Shariff, Aabid; Murphy, Robert F. (2009-6). "Nuclear segmentation in microscope cell images: A hand-segmented dataset and comparison of algorithms". (:unav). doi:10.1109/isbi.2009.5193098. PMC 2901896. PMID 20628545. {{cite journal}}: Check date values in: |date= (help)نگهداری یادکرد:فرمت پارامتر PMC (link)

[8] Coelho, Luis Pedro; Glory-Afshar, Estelle; Kangas, Joshua; Quinn, Shannon; Shariff, Aabid; Murphy, Robert F. (2010). Blaschke, Christian; Shatkay, Hagit (eds.). "Principles of Bioimage Informatics: Focus on Machine Learning of Cell Patterns". Linking Literature, Information, and Knowledge for Biology. Lecture Notes in Computer Science (به انگلیسی). Springer Berlin Heidelberg: 8–18. doi:10.1007/978-3-642-13131-8_2. ISBN 9783642131318.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]