ژن‌یابی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو
Gene structure.svg

اصولاً ژن‌یابی یا پیش بینی ژن به زمینهٔ محاسبات بایولوژیکی اشاره دارد که با تعیین الگوریتمیکِ قطعات توالی‌ها، غالباً ژنوم دی‌ان‌ای، که کارکرد بایولوژیکی دارند در ارتباط است. این امر به طور خاص شامل ژن‌های کدکنندهٔ پروتئین است، اما ممکن است شامل سایر عناصر کارکردی از قبیل ژن‌های آران‌ای و نواحی تنظیم کننده نیز بشود. ژن‌یابی یکی از اولین و مهمترین مراحل شناخت ژنوم یک گونه‌ای که به صورت توالی درآورده شده است. در اوایل، «ژن‌یابی» بر اساس آزمایش‌های پرزحمت و دشوار بر روی سلول‌های زنده و ارگانیسم‌ها استوار شده بود. تحلیل‌های آماری نرخ نوترکیب‌های هومولوگ چندین ژن مختلف می‌تواند ترتیب قرار گرفتن آن‌ها را روی یک کروموزوم خاص تعیین کند و اطلاعات بدست آمده از چنین آزمایش‌هایی می‌تواند برای ساختن یک نقشۀ ژنتیکی که موقعیت نسبی ژن‌های مرتبط به هم را به طور تقریبی مشخص کند، استفاده شود. امروزه با در اختیار داشتن توالی‌های ژنی وسیع و منابع محاسباتی قدرتمند، تعریف ژن‌یابی به عنوان مسئلهٔ محاسباتی عظیمی تغییر پیدا کرده است. تعیین اینکه آیا یک توالی کارکردی است مستلزم تعیین کارکرد یا محصول آن ژن است.

روش‌های بیرونی[ویرایش]

در سیستم‌های ژن‌یابی خارجی (بر پایهٔ شواهد) ژنوم هدف را در توالی‌هایی که شبیه به شواهد خارجی هستند را از روی یک توالی شناخته شدهٔ آران‌ای پیام‌رسان و یا محصول یک پروتئین جستجو می‌کنند. برای یک توالی آران‌ای پیام‌رسان داده شده، بدست آوردن یک توالی دی‌ان‌ای منحصر بفرد واضح است. برای یک توالی پروتئینی، خانواده‌ای از توالی‌های ممکن از دی‌ان‌ای کد شده را می‌توان از روی ترجمهٔ معکوس کد ژنتیکی بدست آورد. وقتی توالی‌های دی‌ان‌ای مشخص شدند جستجوی کارآمد یک ژنوم هدف برای یافتن تطابق‌های کامل یا جزئی، مسئلهٔ الگوریتمیک سرراستی است. یک سیستم بسیار پرکاربرد برای این منظور بلاست است.

روش‌های از آغاز[ویرایش]

به دلیل دشواری و هزینهٔ زیاد در بدست آوردن شواهد خارجی برای اکثر ژن‌ها، که در زمرهٔ ژن‌یابی‌های از آغاز قرار می‌گیرند، که در آن توالی‌های ژنوم دی‌ان‌ای به تنهایی به طور سیستماتیک به منظور یافتن نشانه‌هایی از حضور ژن‌های کد کنندهٔ پروتئین جستجو می‌کند. این نشانه‌ها یا می‌توانند به عنوان سیگنال، توالی‌های خاصی که حضور ژن در اطراف را تشخیص می‌دهند، یا محتوا، ویژگی‌های آماری کد کردن توالی‌های پروتئینی، دسته‌بندی شوند. به طور دقیق تر ژن‌یابیِ از آغاز در ردهٔ پیش بینی ژن قرار می‌گیرد، زیرا که شواهد خارجی کلاً مستلزم این است که کارکرد یک ژن معروف را استنتاج کرده باشد.

در ژنوم پروکاریوت‌ها، ژن‌ها توالی‌های پروموتوری (سیگنال) خاص و نسبتاً شناخته شده‌ای دارند، از قبیل Pinbow box و نواحی اتصال فاکتورهای رونویسی که به راحتی قابل شناسایی هستند. همچنین کد کردن توالی برای پروتئین به صورت یک قالب خواندن باز (ORF) به هم پیوسته اتفاق می‌افتد که به اندازهٔ صدها یا هزاران جفت بازی درازا دارد. آماری که از کدون‌های خاتمه بدست می‌آید به گونه‌ای است که حتی یافتن یک قالب خواندن باز با این طول نیز حاوی اطلاعات بسیاری است. علاوه براین، دی‌ان‌ای کد کردن پروتئین دارای فراوانی مشخص و سایر ویژگی‌های آماری که به سادگی قابل پیدا کردن در توالی ای با این طول هستند، دارد. این ویژگی‌ها سبب می‌شوند که ژن‌یابی که پروکاریوت‌ها نسبتاً آسان و سرراست انجام شود و سیسیتم‌های با طراحی مناسب قادر هستند که به سطح بالایی از دقت نیز برسند.

ژن‌یابی از آغاز در یوکاریوت‌ها مخصوصاً ارگانیسم‌های پیچیده مانند انسان، به چندین دلیل چالش بر انگیزتر است. اول اینکه، پروموتر. سایر سیگنال‌های تنظیم کننده پیچیده‌تر و ناشناخته تر هستند در مقایسه با پروکاریوت‌ها.

دوم اینکه مکانیزم‌های پیوند کردن (splicing) در سلول‌های یوکاریوت‌ها به کار گرفته می‌شود؛ به این معنی که یک توالیِ مشخصِ کد کنندهٔ پروتئین در ژنوم به چندین بخش تقسیم می‌شود (اگزون) که با توالی‌های غیر کد کننده (اینترون) جدا شده‌اند. یک ژن کد کنندهٔ پرئتئین در انسان ممکن است به دو جین اگزون که هر یک کمتر از دویست جفتِ بازی درازا دارند (البته می‌تواند به کوتاهی بیست تا سی جفتِ بازی نیز باشد) تقسیم شود؛ بنابراین در یوکاریوت‌ها فراوانی و سایر ویژگی‌های محتوایی شناخته شده از دی‌ان‌ای کد کنندهٔ پروتئین بسیار دشوارتر است از پروکاریوت‌ها.

ژن یاب‌های پیشرفته هم برای ژنوم پرئکاریوت‌ها و هم برای ژنوم یوکاریوت‌ها از مدل‌های احتمالی پیچیده استفاده می‌کنند از قبیل مدل‌های مارکوف پنهان، تا اطلاعات سیگنال‌های مختلف و متنوع را با هم ترکیب کنند. سیستم GLIMMER یک ژن یاب پرکاربرد و دقیق برای پرئکاریوت هاست. GeneMark دیدگاه معروف دیگری است. ژن یاب‌های از آغاز برای یوکاریوت‌ها به نسبت موفقیت کمتری بدست آورده‌اند؛ برنامه‌های GENSCAN و geneid نمونه‌های بازر از این قبیل ژن یاب‌ها هستند. ژن یاب SNAP همانند Genscan مبتنی بر HMM است و سعی دارد که قابلیت سازگاری بیشتری با ارگانیسم‌های متفائت داشته باشد.[۱] روش‌های جدید مانند mSplicer ,[۲] CONTRAST,[۳] یا mGene[۴] نیز از تکنیک‌های یادگیری ماشین مانند ماشین بردار پشتیبان برای یک پیش بینی ژن موفق استفاده می‌کنند.

سایر سیگنال‌ها[ویرایش]

از بین سیگنال‌های بدست آمده‌ای که برای پیش بینی استفاده می‌شوند می‌توان به آمار k-mer، تبدیل فوریه، Z-curve parameters and certain run features.[۵] اشاره کرد. ادعا می‌شود که سیگنال‌هایی که به طور مستقیم در توالی قابل شناسایی نیستند می‌توانند در بهبود پیش بینی ژن به کار گرفته شوند. برای مثال تاکنون نقش ساختار دوم در شناسایی موتیف‌های تنظیم کننده گزارش شده است.[۶] علاوه براین گفته شده که پیش بینی ساختار دوم RNA به پیش بینی نواحی متصل شدگی (splicing) کمک می‌کند.[۷][۸][۹][۱۰]

روش‌های تطبیق ژنوم‌ها[ویرایش]

از آنجا که کل توالی بسیاری از گئنه‌ها بدست آورده شده است، یک حرکت امیدوار کننده در تحقیقات فعلی ای که در زمینه ژن‌یابی انجام می‌شود روش ژنوم‌های تطبیقی است. این روش بر این اساس استوار است که نیروی انتخاب طبیعی باعث می‌شود که ژن‌ها و سایر عناصر کارکردی تحت جهش واقع شوند؛ بنابراین ژن‌ها می‌توانند از روی مقایسه با ژنوم گونه‌های مربوطه مقایسه شوند. این روش در ابتدا بر روی ژنوم‌های موش و انسان اعمال شد و از برنامه‌هایی مانند SLAM، SGP و Twinscan/N-SCAN استفاده شد.

منابع[ویرایش]

  1. Korf I. (2004-05-14). "Gene finding in novel genomes". BMC Bioinformatics 5: 59–67. doi:10.1186/1471-2105-5-59. PMC 421630. PMID 15144565. 
  2. Rätsch, Gunnar; Sonnenburg, S; Srinivasan, J; Witte, H; Müller, KR; Sommer, RJ; Schölkopf, B (2007-02-23). "Improving the C. elegans genome annotation using machine learning". PLoS Computational Biology 3 (2): e20. doi:10.1371/journal.pcbi.0030020. PMC 1808025. PMID 17319737. 
  3. Gross, Samuel S; Do, CB; Sirota, M; Batzoglou, S (2007-12-20). "CONTRAST: A Discriminative, Phylogeny-free Approach to Multiple Informant De Novo Gene Prediction". Genome Biology 8 (12): R269. doi:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039. 
  4. Schweikert G, Behr J, Zien A, et al. (July 2009). "mGene.web: a web service for accurate computational gene finding". Nucleic Acids Res. 37 (Web Server issue): W312–6. doi:10.1093/nar/gkp479. PMC 2703990. PMID 19494180. 
  5. Saeys Y, Rouzé P, Van de Peer Y (2007). "In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists". Bioinformatics 23 (4): 414–420. doi:10.1093/bioinformatics/btl639. PMID 17204465. 
  6. Hiller M, Pudimat R, Busch A, Backofen R (2006). "Using RNA secondary structures to guide sequence motif finding towards single-stranded regions". Nucleic Acids Res 34 (17): e117. doi:10.1093/nar/gkl544. PMC 1903381. PMID 16987907. 
  7. Patterson DJ, Yasuhara K, Ruzzo WL (2002). "Pre-mRNA secondary structure prediction aids splice site prediction". Pac Symp Biocomput: 223–234. PMID 11928478. 
  8. Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (2006). "Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks". Comput Biol Chem 30 (1): 50–7. doi:10.1016/j.compbiolchem.2005.10.009. PMID 16386465. 
  9. Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (2006). "Impact of RNA structure on the prediction of donor and acceptor splice sites". BMC Bioinformatics 7: 297. doi:10.1186/1471-2105-7-297. PMC 1526458. PMID 16772025. 
  10. Rogic, S (2006). The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae (PDF) (PhD thesis). University of British Columbia. 

پیوند به بیرون[ویرایش]