بیان ژن تجزیه کپ

از ویکی‌پدیا، دانشنامهٔ آزاد

(Cap Analysis of Gene Expression (CAGE یک روش با ظرفیت بالا برای تجزیه و تحلیل ترنسکریپتوم در بیولوژی مولکولی است. در این روش از به دام انداختن capها استفاده می شود. با استقاده از داده های بدست امده می توان موقعیت دقیق TSS ها را مشخص کرد. با استفاده از این موقعیت ها می توان به تحلیل بیان ژن ها و یا ساختار promoterها پرداخت. از این روش در کارهای بزرگی نظیر FANTOM و یا ENCODE استفاده شده است.

فرایند تولید داده[ویرایش]

در این فرایند از تکنیک مبتنی بر بیوتینیل کردن کلاهک 7-متیل گوانوزین از Pol II transcripts برای بدست اوردن <cDNAs کامل از 5' که از روی رونویسی اسکن شده برعکس رونویسی شده است> استفاده می شود. سپس توالی لینکر به انتهای 5 'cDNA می چسبد و از آنزیم محدود کننده خاصی برای جدا کردن یک قطعه کوتاه از انتهای 5' استفاده می شود. سپس قطعات حاصل با استفاده از تکنولوژی توالی بسیار موازی با سرعت بالا تبدیل به دنباله می شوند. به خروجی های این قسمت tag گفته می شود.[۱][۲]

مراحل بدست امدن داده خام

بدست اوردن TSSها از داده[ویرایش]

در ابتدای این مرحله ما تعدادی tag داریم. حال با یک نگاه ساده با تناظر دادن این tagها به یک مرجع genome می توانیم موقعیت دقیق TSS ها را بدست اوریم. اما قضیه به این سادگی ها نیست این tag ها می بایست در ابتدا از مرحله کنترل کیفیت بگذرند و بزیده شوند و سپس این یافتن تناظرها انجام شود. دقیقاً مانند مراحلی که ما در RNA-Seq طی می کنیم در واقع در انجا ما با داده ی خام بدست امده از NGS رو به رو هستیم و در اینجا ما با داده ی خام بدست امده از CAGE رو به رو هستیم. حال در شکل زیر مراحل کامل این pipeline را مشاهده می کنید: برای انجام این مراحل کافیست از Pipeline کمک بگیرید.

Pipeline dag

و این تصویر توصیفی از کار این pipeline است:

Cage tags

انالیزهای مختلف با داشتن جایگاه TSSها[ویرایش]

از این داده ها می توان برای بدست اوردن expression profileو یا تحلیل ساختار promoterها استقاده کرد. برای این منظور کتابخانه هایی در زبان برنامه نویسی R وجود دارد از معروف ترین ان ها می توان به CAGEr اشاره کرد.

مراحل تجزیه کردن داده ها:

۱. نورمال کردن داده ها[ویرایش]

به این منظور می توان از یک نرمال سازی ساده استقاده کرد یا می توان از روشی مخصوص به نرمال کردن داده های CAGE استفاده نمود در این روش از این قانون تجربی استقاده می شود که توزیع تجمعی متغیر تصادفی <تعداد جایگاه های با دقیقاً Kتا TSS> از یک توزیع نمایی تبعیت می کند. و سعی می شود بزای نرمال سازی هر نقطه روی توزیع فیت شده اورده شود. از این روش نه تنها در نورمال کردن این داده ها بلکه در بقیه فرایندهای مشابه نیز استفاده می شود. [۳]

Plot CAGE

دقت کنید اسکیل نمودار لگاریتمی است.

۲. دسته بندی داده ها[ویرایش]

برای این منظور ۲ روش کلی داریم:

۲.۱ استفاده از الگوریتم های دسته بندی[ویرایش]

می توان از روش دسته بندی ساده ای استفاده کرد. در این روش در ابتدا هر جایگاه یک دسته است و بعد اگر فاصله دو دسته کم تر یک عدد معین بود این دو دسته باهم ادغام می شوند و این کار انقدر ادامه می یابد که دیگر ادغام امکان نداشته باشد.

۲.۲ استفاده از یک مدل مرجع[ویرایش]

می توان از یک مدل مرجع که بازه ی حدودی promoterها را به ما می دهد بهره برد. در این روش یک تطبیق بین هر جایگاه و یک بازه حدودی از یک promoter می یابیم.

۳. یافتن حدودی بیان ژن ها[ویرایش]

با داشتن یک تطبیق از مرحله قبل قسمت دوم یا با یافتن یک تطبیق با استفاده از اشتراک دادن بازه های مرحله قبل قسمت اول با یک مدل مرجع می توانیم تعداد حدودی TSS های یک ژن را بشماریم و با استفاده از ان تقریبی برای بیان ژن ها بدست بیاوریم.

۴. ساختار promoterها[ویرایش]

با بدست اوردن توزیع تجمعی هر بازه و حذف یک درصدی از داده های سر و ته هر بازه با توجه به توزیع تجمعی مثلاً ۰.۱ از ابتدا و ۰.۱ از انتها (که باعث از بین رفتن داده های غیر معمول می شود) می توان طول هر promoter را تخمین زد به این صورت که اختلاف جایگاه ابتدایی ترین TSS را با انتهایی ترین TSS بدست می اوریم. بعد از این داده در تحلیل های مربوط به تنظیم بیان ژن ها استفاده کرد. در قسمت بعد به چرایی مهم بودن این داده اشاره شده است. بر اساس این اندازه می توان promoterها را به دو دسته ی کوچک و بزرگ تقسیم کرد و با استقاده از این تقسیم بندی به ویژگی های زیادی از ان ژن به خصوص در دوران جنینی دست پیدا کرد.

۵. مقایسه های مختلف[ویرایش]

می توان با دو دیدگاه مقایسه انجام داد:

۵.۱ در بافت های مختلف[ویرایش]

که به این صورت است که توزیع کلی طول promoterهای هر بافت باهم مقایسه می شوند.

۵.۲ در ژن ها[ویرایش]

و همین طور می توان یک ژن خاص را در بافت های مختلق مقایسه کرد و تست های اماری مانند کولوموگرف برای مقایسه و یافتن P-value بهره برد.

promoterها[ویرایش]

آنها نواحی هستند که در ابتدای مرحله ی رونویسی مورد استفاده قرار می گیرند. در ابتدا باید بدانیم از کجا باید رونویسی را شروع کنیم. این را promoterها برای ما با داشتن الگوهای خاصی مشخص می کنند. این الگوها کمک می کند تا TATA binding protein به محل خاصی از promoter بچسبد و بقیه مراحل یعنی اضافه شدن بقیه ی TF ها و شروع کار ار ان ای پلیمراز ادامه یابد. حال این نواحی در تنظیم شروع شدن یا نشدن تاثیر گذارند و به تبع اون در بیان تنظیم بیان شدن یا نشدن ژن ها که این باعث تا بررسی ساختار آنها به امری مهم تبدیل شود و این کار با CAGE امکان دارد.[۴]

جستارهای وابسته[ویرایش]

رونویسی (ژنتیک) بیان ژن RNA-seq

لینک های مرتبط[ویرایش]

منابع[ویرایش]

  1. Kodzius, Rimantas (2006). "CAGE: cap analysis of gene expression". Nat Methods. 3 (3): 211–22. doi:10.1038/nmeth0306-211. PMID 16489339.
  2. Shiraki, T; Kondo, S; Katayama, S; et al. (2003-12-23). "Cap analysis gene expression for high-throughput analysis of transcriptional starting point and identification of promoter usage". Proc Natl Acad Sci U S A. 100 (26): 15776–81. doi:10.1073/pnas.2136655100. PMC 307644. PMID 14663149.
  3. PJ، Balwierz (۲۹ ژوئیه ۲۰۰۹). «Methods for analyzing deep sequencing expression data: constructing the human and mouse promoterome with deepCAGE data». genome biology. ۱۰ (۷): ۱–۱۰۰. doi:10.1186/gb-2009-10-7-r79. PMID 2728533.
  4. |یادکرد ژورنال |عنوان=Eukaryotic core promoters and the functional basis of transcription initiation |ژورنال=Nature Reviews |تاریخ=26 June 2018 |جلد=19 |شماره=19 |صفحات=621 - 637 |doi=10.1038/s41580-018-0028-8 |pmid=6205604 |پیوند=https://www.nature.com/articles/s41580-018-0028-8}}