پایگاه داده توالی‌ها

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از پایگاه داده ی رشته ها)
پرش به: ناوبری، جستجو

پایگاه داده توالی

در مبحث داده پردازی زیستی (Bioinformatics) پایگاه داده توالی (sequence database)، نوعی پایگاه داده زیستی محسوب می‌شود که مجموعه بزرگی از توالی‌های اسید نوکلئیک، توالی‌های پروتئین یا پلیمرهای دیگر را در خود جای داده است. به عنوان مثال پایگاه داده Uniprot نمونه ای از پایگاه داده پروتئینی می‌باشد. تا سال ۲۰۱۳ این پایگاه داده بیش از ۴۰ میلیون توالی پروتئین را دارا بوده که البته تعداد توالی‌های آن به صورت تصاعدی در حال رشد می‌باشد.[۱] این پایگاه داده همچنین می‌تواند شامل یک رشته از یک ارگانیسم باشد (یک پایگاه داده برای هر یک از پروتئین‌های موجود در saccharomyces cerevisiae) یا شامل تمام رشته‌های پروتئینی تشکیل دهنده یک مولکول دی‌ان‌ای باشد.

نتایج بررسی

پایگاه داده توالی‌ها می‌تواند توسط روشهای مختلفی جستجو شود. معمول‌ترین روش، جستجوی یک توالی مشابه یک پروتئین یا ژن است که این پروتئین یا ژنی دارای توالی شناخته شده‌ای برای کاربر باشد. برنامه بلاست یک روش از این نوع است.

جستجو در پایگاه‌های داده توالی‌ها با روش‌های مختلف انجام می‌گیرد. پرکاربردترین روش، جستجو به منظور یافتن توالی‌های مشابه با پروتئین یا ژنی است که توالی آن قبلاً برای کاربر مشخص شده است. برنامه BLAST برای این نوع جستجو بسیار متداول است.

داده‌های این نوع پایگاه‌ها منابع متفاوتی دارند و نتیجه آزمایشات کوچک یا بزرگ در نقاط مختلف دنیا هستند. این داده‌ها از تحقیقات انفرادی کوچک تا نتایج مطالعاتی چون تحقیقات مراکز بزرگ توالی یابی ژنوم در این پایگاه‌ها تجمع می‌یابد؛ بنابراین این توالی‌ها و روش‌های زیست‌شناسی ضمیمه شده به این توالی‌ها دارای کیفیت متفاوتی است.[۲]

بسیاری از توالی‌ها براساس یک تحقیق آزمایشگاهی به دست نیامده است. این توالی‌ها نتیجه جستجو شباهت توالی با توالی‌های ثبت شده قبلی است. وقتی یک توالی براساس مشابهت با توالی‌های دیگر ثبت می‌شود به عنوان یک داده جدید در پایگاه داده ذخیره می‌گردد و می‌تواند اساس ثبت توالی‌های دیگری نیز باشد. اکثر پایگاه‌های داده DNA و پروتئین امکان ثبت توالی‌های جدید و افزودن به مجموعه داده‌های پایگاه را برای کاربر فراهم می‌آورند. به عنوان مثال در پایگاه داده NCBI که بزرگترین پایگاه داده DNA محسوب می‌شود می‌توان توالی‌های DNA جدید را از طریق برنامه Bankit در این پایگاه ثبت نمود و بعد از ارزیابی توالی توسط این پایگاه، توالی به نام کاربر در پایگاه ثبت شده و در برنامه‌های جستجو مانند BLAST استفاده می‌شود.

بیشتر پایگاه‌های داده پروتئین و DNA برای شناسایی یک پروتئین یا یک قطعه DNA یا ژن بعد از توالی یابی به کار می‌روند. یعنی پس از توالی یابی DNA و پروتئین توالی حاصل در این پایگاه‌ها جستجو شده و نتایج جستجو و میزان مشابهت با توالی‌های موجود در پایگاه به شناسایی توالی جدید کمک می‌کند برخی از این پایگاه‌ها امکان پیشگویی عملکرد و ساختارثانویه یک توالی به صورت پروتئین را فراهم می‌کنند. با استفاده از برنامه CBLAST که از امکانات پایگاه داده NCBI به شمار می‌رود می‌توان ساختار ثانویه یک توالی را به صورت پروتئین پیشگویی نمود.

داده‌های منتج به تناقض

مشکل عمده اکثر پایگاه داده‌های توالی ژنتیکی این است که رکوردها رنج وسیعی از منابع شامل محققان تا مراکز بزرگ تعیین توالی ژنوم را در بر می‌گیرند. در نتیجه هر یک ازتوالی‌ها (و بخصوص تفسیرهای زیستی متصل شده به این توالی‌ها) به خودی خود از نظر کمیت و محتوا بسیار گسترده می‌شوند. علاوه بر این آزمایشگاه‌های مختلف توالی‌های متعددی را ثبت می‌کنند که با توالی‌های موجود در پایگاه داده یکسان یا تقریباً یکسانند.

بسیاری از تفسیرها بر اساس تحقیقات آزمایشگاهی نیستند و براساس جستجوی توالی‌های مشابه با توالی‌های تفسیر شدهٔ قبلی می‌باشند. واضح است که زمانی که یک توالی بر اساس شباهتش به دیگر توالی‌ها تفسیر می‌شود و سپس در پایگاه داده ذخیره می‌شود، بقیهٔ تفسیرها هم ممکن است از روی آن انجام شود؛ که این باعث بوجود آمدن مشکل تفسیرهای متعدد می‌شود، زیرا چندین تفسیر ممکن است موجود باشد که یا بر اساس رشته‌های مشابه بدست آمده یا بر اساس اطلاعات تجربی است که از آزمایشگاه‌ها بدست آمده؛ بنابراین همیشه بایستی به ترجمه‌های زیستی موجود در پایگاه دادهٔ توالی‌ها با شک و تردید نگریست.

منابع[ویرایش]

مشارکت‌کنندگان ویکی‌پدیا. «Sequence database». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۵ ژوئن ۲۰۱۲.

  1. 1. Cochrane, G. ; Karsch-Mizrachi, I. ; Nakamura, Y. (23 November 2010). "The International Nucleotide Sequence Database Collaboration". Nucleic Acids Research. 39 (Database): D15–D18. doi:10.1093/nar/gkq1150.
  2. 2. Sikic, K. ; Carugo, O. (2010). "Protein sequence redundancy reduction: comparison of various method". Bioinformation. 5 (6): 234–9. doi:10.6026/97320630005234. PMC 3055704. PMID 21364823.

جستارهای وابسته[ویرایش]

پیوند به بیرون[ویرایش]

پانویس[ویرایش]