ژن‌یابی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

ژن یابی اصولاً ژن یابی یا پیش بینی ژن به زمینۀ محاسبات بایولوژیکی اشاره دارد که با تعیین الگوریتمیکِ قطعات توالی ها، غالباً ژنوم DNA، که کارکرد بایولوژیکی دارند در ارتباط است. این امر به طور خاص شامل ژن های کدکنندۀ پروتئین است، اما ممکن است شامل سایر عناصر کارکردی از قبیل ژن های RNA و نواحی تنظیم کننده نیز بشود. ژن یابی یکی از اولین و مهمترین مراحل شناخت ژنوم یک گونه ای که به صورت توالی در آورده شده است. در اوایل، "ژن یابی" بر اساس آزمایش های پرزحمت و دشوار بر روی سلول های زنده و ارگانیسم ها استوار شده بود. تحلیل های آماری نرخ نوترکیب های هومولوگ چندین ژن مختلف می تواند ترتیب قرار گرفتن آن ها را روی یک کروموزوم خاص تعیین کند و اطلاعات بدست آمده از چنین آزمایش هایی می تواند برای ساختن یک نقشۀ ژنتیکی که موقعیت نسبی ژن های مرتبط به هم را به طور تقریبی مشخص کند، استفاده شود. امروزه با در اختیار داشتن توالی های ژنی وسیع و منابع محاسباتی قدرتمند، تعریف ژن یابی به عنوان مسألۀ محاسباتی عظیمی تغییر پیدا کرده است. تعیین اینکه آیا یک توالی کارکردی است مستلزم تعیین کارکرد یا محصول آن ژن است.

روش های بیرونی[ویرایش]

در سیستم های ژن یابی خارجی (بر پایۀ شواهد) ژنوم هدف را در توالی هایی که شبیه به شواهد خارجی هستند را از روی یک توالی شناخته شدۀ mRNA و یا محصول یک پروتئین جستجو می کنند. برای یک توالی mRNA داده شده، بدست آوردن یک توالی DNA منحصر بفرد واضح است. برای یک توالی پروتئینی، خانواده ای از توالی های ممکن از DNA کد شده را می توان از روی ترجمۀ معکوس کد ژنتیکی بدست آورد. وقتی توالی های DNA مشخص شدند جستجوی کارآمد یک ژنوم هدف برای یافتن تطابق های کامل یا جزئی، مسألۀ الگوریتمیک سرراستی است. یک سیستم بسیار پرکاربرد برای این منظور بلاست است.

روش های از آغاز[ویرایش]

به دلیل دشواری و هزینۀ زیاد در بدست آوردن شواهد خارجی برای اکثر ژن ها، که در زمرۀ ژن یابی های از آغاز قرار می گیرند، که در آن توالی های ژنوم DNA به تنهایی به طور سیستماتیک به منظور یافتن نشانه هایی از حضور ژن های کد کنندۀ پروتئین جستجو می کند. این نشانه ها یا می توانند به عنوان سیگنال، توالی های خاصی که حضور ژن در اطراف را تشخیص می دهند، یا محتوا، ویژگی های آماری کد کردن توالی های پروتئینی، دسته بندی شوند. به طور دقیق تر ژن یابیِ از آغاز در ردۀ پیش بینی ژن قرار می گیرد، زیرا که شواهد خارجی کلاً مستلزم این است که کارکرد یک ژن معروف را استنتاج کرده باشد. در ژنوم پروکاریوت ها، ژن ها توالی های پروموتوری (سیگنال) خاص و نسبتاً شناخته شده ای دارند، از قبیل Pinbow box و نواحی اتصال فاکتورهای رونویسی که به راحتی قابل شناسایی هستند. همچنین کد کردن توالی برای پروتئین به صورت یک قالب خواندن باز (ORF) به هم پیوسته اتفاق می افتد که به اندازۀ صدها یا هزاران جفت بازی درازا دارد. آماری که از کدون های خاتمه بدست می آید به گونه ای است که حتی یافتن یک قالب خواندن باز با این طول نیز حاوی اطلاعات بسیاری است. علاوه براین، DNA کد کردن پروتئین دارای فراوانی مشخص و سایر ویژگی های آماری که به سادگی قابل پیدا کردن در توالی ای با این طول هستند، دارد. این ویژگی ها سبب می شوند که ژن یابی که پروکاریوت ها نسبتاً آسان و سرراست انجام شود و سیسیتم های با طراحی مناسب قادر هستند که به سطح بالایی از دقت نیز برسند. ژن یابی از آغاز در یوکاریوت ها مخصوصاً ارگانیسم های پیچیده مانند انسان، به چندین دلیل چالش بر انگیزتر است. اول اینکه، پروموتر . سایر سیگنال های تنظیم کننده پیچیده تر و ناشناخته تر هستند در مقایسه با پروکاریوت ها. دوم اینکه مکانیزم های پیوند کردن (splicing) در سلول های یوکاریوت ها به کار گرفته می شود؛ به این معنی که یک توالیِ مشخصِ کد کنندۀ پروتئین در ژنوم به چندین بخش تقسیم می شود (اگزون) که با توالی های غیر کد کننده (اینترون) جدا شده اند. یک ژن کد کنندۀ پرئتئین در انسان ممکن است به دو جین اگزون که هر یک کمتر از دویست جفتِ بازی درازا دارند (البته می تواند به کوتاهی بیست تا سی جفتِ بازی نیز باشد) تقسیم شود. بنابراین در یوکاریوت ها فراوانی و سایر ویژگی های محتوایی شناخته شده از DNA کد کنندۀ پروتئین بسیار دشوارتر است از پروکاریوت ها. ژن یاب های پیشرفته هم برای ژنوم پرئکاریوت ها و هم برای ژنوم یوکاریوت ها از مدل های احتمالی پیچیده استفاده می کنند از قبیل مدل های مارکوف پنهان، تا اطلاعات سیگنال های مختلف و متنوع را با هم ترکیب کنند. سیستم GLIMMER یک ژن یاب پرکاربرد و دقیق برای پرئکاریوت هاست. GeneMark دیدگاه معروف دیگری است. ژن یاب های از آغاز برای یوکاریوت ها به نسبت موفقیت کمتری بدست آورده اند؛ برنامه های GENSCAN و geneid نمونه های بازر از این قبیل ژن یاب ها هستند. ژن یاب SNAP همانند Genscan مبتنی بر HMM است و سعی دارد که قابلیت سازگاری بیشتری با ارگانیسم های متفائت داشته باشد. [۱] روش های جدید مانند mSplicer ,[۲] CONTRAST,[۳] یا mGene[۴] نیز از تکنیک های یادگیری ماشین مانند ماشین بردار پشتیبان برای یک پیش بینی ژن موفق استفاده می کنند.

سایر سیگنال ها[ویرایش]

از بین سیگنال های بدست آمده ای که برای پیش بینی استفاده می شوند می توان به آمار k-mer، تبدیل فوریه، Z-curve parameters and certain run features.[۵] اشاره کرد. ادعا می شود که سیگنال هایی که به طور مستقیم در توالی قابل شناسایی نیستند می توانند در بهبود پیش بینی ژن به کار گرفته شوند. برای مثال تاکنون نقش ساختار دوم در شناسایی موتیف های تنظیم کننده گزارش شده است.[۶] علاوه براین گفته شده که پیش بینی ساختار دوم RNA به پیش بینی نواحی متصل شدگی (splicing) کمک می کند.[۷][۸][۹][۱۰]

روش های تطبیق ژنوم ها[ویرایش]

از آنجا که کل توالی بسیاری از گئنه ها بدست آورده شده است، یک حرکت امیدوار کننده در تحقیقات فعلی ای که در زمینه ژن یابی انجام می شود روش ژنوم های تطبیقی است. این روش بر این اساس استوار است که نیروی انتخاب طبیعی باعث می شود که ژن ها و سایر عناصر کارکردی تحت جهش واقع شوند. بنابراین ژن ها می توانند از روی مقایسه با ژنوم گونه های مربوطه مقایسه شوند. این روش در ابتدا بر روی ژنوم های موش و انسان اعمال شد و از برنامه هایی مانند SLAM، SGP و Twinscan/N-SCAN استفاده شد.

منابع[ویرایش]

  1. Korf I. (2004-05-14). "Gene finding in novel genomes". BMC Bioinformatics 5: 59–67. DOI:10.1186/1471-2105-5-59. PMC 421630. PMID 15144565. 
  2. Rätsch, Gunnar; Sonnenburg, S; Srinivasan, J; Witte, H; Müller, KR; Sommer, RJ; Schölkopf, B (2007-02-23). "Improving the C. elegans genome annotation using machine learning". PLoS Computational Biology 3 (2): e20. DOI:10.1371/journal.pcbi.0030020. PMC 1808025. PMID 17319737. 
  3. Gross, Samuel S; Do, CB; Sirota, M; Batzoglou, S (2007-12-20). "CONTRAST: A Discriminative, Phylogeny-free Approach to Multiple Informant De Novo Gene Prediction". Genome Biology 8 (12): R269. DOI:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039. 
  4. Schweikert G, Behr J, Zien A, et al. (July 2009). "mGene.web: a web service for accurate computational gene finding". Nucleic Acids Res. 37 (Web Server issue): W312–6. DOI:10.1093/nar/gkp479. PMC 2703990. PMID 19494180. 
  5. Saeys Y, Rouzé P, Van de Peer Y (2007). "In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists". Bioinformatics 23 (4): 414–420. DOI:10.1093/bioinformatics/btl639. PMID 17204465. 
  6. Hiller M, Pudimat R, Busch A, Backofen R (2006). "Using RNA secondary structures to guide sequence motif finding towards single-stranded regions". Nucleic Acids Res 34 (17): e117. DOI:10.1093/nar/gkl544. PMC 1903381. PMID 16987907. 
  7. Patterson DJ, Yasuhara K, Ruzzo WL (2002). "Pre-mRNA secondary structure prediction aids splice site prediction". Pac Symp Biocomput: 223–234. PMID 11928478. 
  8. Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (2006). "Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks". Comput Biol Chem 30 (1): 50–7. DOI:10.1016/j.compbiolchem.2005.10.009. PMID 16386465. 
  9. Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (2006). "Impact of RNA structure on the prediction of donor and acceptor splice sites". BMC Bioinformatics 7: 297. DOI:10.1186/1471-2105-7-297. PMC 1526458. PMID 16772025. 
  10. Rogic, S (2006) (PDF). The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae (PhD thesis). University of British Columbia. 

پیوندهای خارجی[ویرایش]

الگو:Genomics-footer الگو:Biology-footer