آرم توالی

از ویکی‌پدیا، دانشنامهٔ آزاد

در بیوانفورماتیک آرم توالی (به انگلیسی: Sequence Logo) یک روش برای تصویر کردن هم ترازی چندگانه (multiple alignment) ی توالی‌های آمینو اسید یا نوکلئیک اسید است. این روش برای نشان دادن هم ترازی توالی‌ها نخستین بار در سال ۱۹۹۰ توسط Tom Schneider و Mike Stephens معرفی شد.[۱]

یک نمونه آرم توالی که از هم‌ارزی پنج رشتهٔ TAAACGAT ,TAATGAAT ,TAATCAAT ,TACTCTTT و TCAAGAAA ایجاد شده.
یک نمونه نشانهٔ توالی که از هم‌ارزی پنج رشتهٔ TAAACGAT ,TAATGAAT ,TAATCAAT ,TACTCTTT و TCAAGAAA ایجاد شده.

به‌طور کلی آرم توالی به صورت نموداری است که محور افقی آن نشان دهندهٔ جایگاه‌ها بر روی توالی دی ان ای است و محور عمودی آن و اندازهٔ حروف در طی آن نشان دهندهٔ فرکانس تکرار هر حرف در جایگاه مورد نظر در بین توالی‌ها است.

ساختار[ویرایش]

آرم توالی که از هم ترازی رشته‌هایی به طول n به‌وجود می‌آید، دارای n ستون است. هر ستون از یک یا چند حرف تشکیل شده که روی یکدیگر قرار گرفته‌اند و ارتفاع هر کدام نشان دهندهٔ میزان تکرار آن در جایگاه مربوط در بین تمام رشته‌های هم تراز شده می‌باشد. معمولاً جهت خوانش راحت تر، هر حرف را با رنگ مخصوصی نشان می‌دهند. مجموع ارتفاع حروف در هر جایگاه نشان دهندهٔ محتوای اطلاعاتی (information content) است که از هم‌ارزی توالی‌ها بدست می‌آید. به عبارتی ارتفاع هر ستون نشان دهندهٔ این است که در رابطه با محتوای موجود در یک جایگاه (اندیس) به‌خصوص تا چه اندازه اطمینان موجود است.

ساخت آرم توالی[ویرایش]

جهت ایجاد یک آرم توالی ابتدا باید توالی‌های مورد نظر از جای مشخصی که نشان دهندهٔ مکان آغاز موتیف‌های مورد نظر است، هم تراز (aligne) شوند. همان‌طور که در بخش پیش اشاره شد، ارتفاع هر ستون نشان دهندهٔ محتوای اطلاعاتی است که با بیت سنجیده می‌شود.

برای اندازه‌گیری «محتوای اطلاعاتی» (که با نشان داده می‌شود) در جایگاه ام، با توجه به اینکه توالی مورد نظر از چه جنسی است، از روابط زیر استفاده می‌شود:[۱][۲]

برای نوکلئیک اسیدها (دی ان ای)

برای آمینو اسیدها (پروتئین)

که در آن یک فاکتور تصحیح است که در مواقعی که تعداد نمونه توالی‌ها () کم است لازم می‌شود و از طریق رابطهٔ زیر محاسبه می‌شود:

که در آن برای نوکلئیک اسیدها برابر ۴ و برای آمینو اسیدها برابر ۲۰ است.

همچنین در این روابط نشان دهندهٔ عدم اطمینان یا همان آنتروپی جایگاه ام است که از رابطهٔ زیر بدست می‌آید:[۳]

در این رابطه b نشان دهندهٔ مجموعه حروفی است که در توالی وجود دارند یعنی برای توالی دی ان ای مقادیر b برابر A, T، C و G می‌باشد و برای توالی پروتئین، مقادیر b همان آمینو اسیدهای مختلف می‌باشد. همچنین در این رابطه نشان دهندهٔ بسامد آماری حرف b در جایگاه ام است که به عبارتی همان تعداد دفعات مشاهدهٔ آن حرف در بین نمونه توالی هاست. ارتفاع هر حرف در جایگاه ام نیز از ضرب این بسامد آماری در محتوای اطلاعاتی آن جایگاه بدست می‌آید. به عبارتی اگر ارتفاع حرف b در جایگاه ام با نشان دهیم، داریم:

در هر ستون حروف به صورت نزولی از بالا به پایین مرتب می‌شوند، به طوری که حرفی که بیشترین بسامد آماری را دارد در بالا، و حرفی که کمترین بسامد آماری را دارد در پایین قرار می‌گیرد.

ابزار ساخت[ویرایش]

برای ساختن آرم توالی ابزارهای مختلفی طراحی و تولید شده‌است که به صورت رایگان و آنلاین در دسترس می‌باشد. دو نمونه از این ابزارها WebLogo و Seq2Logo هستند که در زیر به اختصار شرح داده شده‌اند.

یک نمونه آرم توالی آمینواسید که با استفاده از ابزار webLogo ساخته شده

[ویرایش]

و بلوگو (WebLogo) نرم‌افزاری برخط است که با هدف آسان کردن ایجاد آرم‌های توالی، توسط جمعی از محققین دانشگاه برکلی در سال ۲۰۰۴ توسعه یافته‌است.[۴] در حال حاضر نسخه ی سوم این نرم‌افزار قابل دسترسی است و کد منبع آن در گیت هاب (github) موجود است.[۵]

[ویرایش]

این ابزار نیز مانند ابزار پیشین، نرم‌افزاری برخط است که آرم توالی هم ترازی چندگانهٔ آمینواسیدها را به شکل‌ها و با روش‌های مختلف تولید می‌کند. این ابزار در سال ۲۰۱۲ توسط جمعی از پژوهشگران دانشگاه فنی دانمارک طراحی و ساخته شده‌است[۶] و هم‌اکنون نسخه ی دوم آن در دسترس است. این نرم‌افزار یک نسخهٔ قابل بارگیری نیز دارد که برای داده‌های خیلی بزرگ که پردازش آن‌ها به صورت برخط بیشتر از دو ساعت (که حداکثر محدودیت زمانی سرور است) طول می‌کشد، مناسب است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ Schneider, T D; Stephens, R M (1990-10-25). "Sequence logos: a new way to display consensus sequences". Nucleic Acids Research. 18 (20): 6097–6100. ISSN 0305-1048. PMID 2172928.
  2. Schneider, T. D.; Stormo, G. D.; Gold, L.; Ehrenfeucht, A. (1986-04-05). "Information content of binding sites on nucleotide sequences". Journal of Molecular Biology. 188 (3): 415–431. doi:10.1016/0022-2836(86)90165-8. ISSN 0022-2836. PMID 3525846.
  3. Shannon, C. E. (1948-7). "A mathematical theory of communication". The Bell System Technical Journal. 27 (3): 379–423. doi:10.1002/j.1538-7305.1948.tb01338.x. ISSN 0005-8580. {{cite journal}}: Check date values in: |date= (help)
  4. Crooks, Gavin E.; Hon, Gary; Chandonia, John-Marc; Brenner, Steven E. (2004-6). "WebLogo: a sequence logo generator". Genome Research. 14 (6): 1188–1190. doi:10.1101/gr.849004. ISSN 1088-9051. PMID 15173120. {{cite journal}}: Check date values in: |date= (help)
  5. WebLogo 3: Sequence Logos redrawn. Contribute to WebLogo/weblogo development by creating an account on GitHub, WebLogo, 2019-07-17, retrieved 2019-07-24
  6. Nielsen, Morten; Thomsen, Martin Christen Frølund (2012-07-01). "Seq2Logo: a method for construction and visualization of amino acid binding motifs and sequence profiles including sequence weighting, pseudo counts and two-sided representation of amino acid enrichment and depletion". Nucleic Acids Research (به انگلیسی). 40 (W1): W281–W287. doi:10.1093/nar/gks469. ISSN 0305-1048.