فست ای
فست ای (به انگلیسی: FASTA) یک پکیج نرم افزاری همترازسازی توالی پروتئین و دی ان ای است که برای نخستین بار به نام (FASTP) توسط David J. Lipman و William R. Pearson در سال ۱۹۸۵[۱] معرفی گردید. میراث آن فرمت فست ای است، که امروزه در همه جای علم بیوانفورماتیک مشهود میباشد.
محتویات |
تاریخچه [ویرایش]
نخستین بار برنامه FASTP جهت بررسی تشابه توالی پروئینی نوشته شد. فست ای این توانایی را داشت که جست و جوی دی ان ای:دی ان ای و همچنین جست و جوی پروتئین ترجمه شده:دی ان ای را انجام دهد، همچنین برنامه پیچیده تری جهت ارزیابی اهمیت آماری آن ارائه نمود.[۲] این بسته نرم افزاری شامل برنامههای مختلف میباشد که امکان همترازسازی رشتههای پروتئینی و دی ان ای را میدهد.
کاربردها [ویرایش]
فست ای "fast A" تلفظ شده و همچنین به آن "FAST-All" هم گفته میشود، بدین دلیل که این زبان برنامه نویسی قابلیت کار با کلیه حروف الفبایی را دارد. این برنامه دارای دو ورژن الحاقی از "FAST-P" (همترازی پروتئین) و "FAST-N" (همترازی نوکلئوتید)، میباشد. بسته نرم افزاری فست ای که هم اکنون مورد استفاده قرار میگیرد شامل برنامههایی برای جست و جوی پروتئین:پروتئین، دی ان ای:دی ان ای، پروتئین:دی ان ای ترجمه شده(همراه با تغییرات محتوا) و جستجوی پپتیدهای آرایش یافته و آرایش نیافته، میباشد. نسخههای نهایی فست ای شامل الگوریتمهای جستجوی ویژهای میباشد که جهت تصحیح خطاهای تغییر محتوا، هنگام بررسی توالی داده پروتئین با نوکلئوتید، مورد استفاده قرار میگیرد.
علاوه بر این جهت افزایش سرعت روشهای جست و جوی اکتشافی(heuristic search)، بسته نرم افزاری فست ای مجهز به (SSEARCH)ابزاری برای بهینه سازی الگوریتم اسمیت واترمن میباشد.
بیشترین تمرکز این بسته نرم افزاری بر روی صحت آمار مشابه میباشد، بنابراین زیست شناسان براحتی میتوانند در مورد اینکه یک همترازی بصورت اتفاقی حاصل شده و یا ممکن است به واسطه هومولوژی باشد، اظهار نظر نمایند. این بسته نرم افزاری هم اکنون در fasta.bioch.virginia.edu موجود میباشد.
پایگاه اینترنتی web-interface، جهت ثبت توالیها برای جست و جوی پایگاه داده های آنلاین European European Bioinformatics Institute (EBI)'s در دسترس بوده و همچنین قابلیت استفاده از برنامههای فست ای بر روی این وبگاه، امکان پذیر میباشد. FASTA file format بعنوان وروردی این نرم افزار، امروزه در مقیاس وسیعی توسط دیگر ابزارات جستجوی پایگاه داده توالی(مانند بلاست) و یا برنامههای همترازسازی توالی(مانند کلاستال, تی-کافی و...) مورد استفاده قرار میگیرد.
روش بررسی [ویرایش]
فست ای یک نوکلئوتید یا یک رشته آمینو اسید را بعنوان ورودی دریافت کرده و به کمک همترازسازی محلی توالی داده ی ورودی و توالی هایی که در پایگاه داده هستند، تشابهات توالی های متعلق به پایگاه داده های یکسان را پیدا کند.
برنامه فست ای از یک روش Heuristic بسیار گسترده پیروی مینماید که سرعت اجرای برنامه را بسیار ارتقا دادهاست. روش کار بدین صورت است که برنامه ابتدا یک الگو برای شناخت کلمات در نظر میگیرد سپس بر اساس طول جمله، کلمات متناظر با هم را تفکیک مینماید سپس کلماتی را که داری بیشتر احتمال تناظر هستند را (قبل از اجرای بیشتر یک جستجوی بهینه سازی زمانگیر با استفاده از الگوریتم Smith-Waterman ) علامت می زند.
سایز لغت ورودی که با تحت عنوان ktup نامگذاری میشود، تعیین کننده سرعت و حساسیت اجرای برنامه میباشد.
تفاوتهایی بین fastn و fastp وجود دارد که به دلیل نوع رشتههایی است که مورد استفاده قرار میگیرد. با وجود این هر دوی آنها دارای چهار مرحله هستند و هر دوی آنها از سه امتیازبندی جهت توصیف و قالب بندی کردن نتایج تشابه توالی ها استفاده می کنند.که عبارتند از:
- شناسایی مناطقی که دارای بیشترین تعداد رشتههای مشابه میباشند (با ktup با اندازه ی ۱ یا ۲).
- در این مرحله همه گروهها و یا یک گروه از تشابهات رشتههای متناظر با استفاده از جدول look-up شناسایی شده است. مقیاس ktup مشخص می کند که چه تعداد تطابق پشت سرهم نیاز است تا یک مچ اتفاق بیفتد. بدیهی است که هر چقدر اندازه ی ktup کمتر باشد، حساسیت جستجو بیشتر می شود. اکثرا برای رشتههای پروتئینی ktup=2 و برای رشتههای نوکلئوتید 4=ktup ویا ktup=6 تعریف می شود. اولیگونوکلئوتیدهای کوچک معمولا توسط ktup=1 اجرا میشوند.
- پس از آن برنامه تمام تمام مکانهای مشابه محلی را که بصورت قطرهایی با طول مشخص در نمودار نقطه ای نمایش داده شده اند را شناسایی می نماید . که در واقع این کار از طریق شمارش تطابق ktup ها و جریمه کردن عدم تطابق ها میسر می شود. در ادامه مناطق محلی که بیشترین میزان تطابق در قطرها صورت گرفته از بقیه ایزوله می شوند. برای توالی های پروتئینی از BLOSUM50 جهت امتیاز بندی تطابق ktup استفاده میشود. رشتههای نوکلئوتیدی از ماتریس همانی برای این منظور استفاده میکنند. در نهایت ۱۰ تا از بهترین ناحیه های محلی از بین همه ی قطرها انتخاب شده در کنار هم قرار می گیرند و سپس ذخیره میگردند.
- اسکن مجدد مناطق انتخاب شده با استفاده از ماتریس نمره دهی جهت کسب بالاترین امتیاز ممکن.
- اسکن مجدد ۱۰ مکان انتخاب شده. در این مرحله از ماتریس امتیاز بندی جهت امتیاز بندی مناطقی که طول کمتر از ktup دارند، استفاده میشود. همزمان با امتیاز دهی،تعویضهایی که بر امتیاز شباهت تاثیر می گذارد انجام می شود. با وجود اینکه توالی های پروتئین ها از ماتریس BLOSUM50 (که امتیازدهی را براساس کمترین میزان تغییراتی که نیاز است تا یک جابجایی رخ دهد) استفاده می کنند،از یک معیار شباهت دیگر به اسم PAM هم می توان استفاده کرد. به ازای هر قطری که به این صورت اسکن می شود، مناطقی با بیشترین امتیاز مشخص میشوند. امتیاز اولیه ای که در مرحله ی 1 بدست آمد، برای رتبه گذاری کتابخانه ی توالی ها مورد استفاده قرار می گیرد. این امتیاز اولیه init1 نامیده می شود.
- در یک همترازسازی(Alignment)،اگر چند ناحیه اولیه با امتیاز بیشتر از CUTOFF پیدا شد، بررسی کنید که آیا این نواحی می توانند به هم ملحق شوند و یک همترازی با گپ را تشکیل دهند. سپس امتیاز شباهت را محاسبه کنید که این مقدار برابر با حاصل جمع مناطق الحاق شده با جریمه ی گپ برابر با 20 است. امتیاز شباهت اولیه (initn) برای رتبه بندی کتابخانه توالی ها استفاده می شود. و بالاترین امتیاز پیدا شده در مرحله ی 2 گزارش می شود(init1).
- در این مرحله برنامه مناطق اولیه که ترکیبی از مناطق با بیشترین امتیاز هستند را بصورت بهینه ای همتراز(Align) می کند. این همترازی بهینه سریعا توسط الگوریتم برنامه نویسی پویا انجام می شود.
- امتیاز بدست آمده برای رتبه بندی کتابخانه توالی ها استفاده می شود. این فرایند الحاق سازی حساسیت را افزایش می دهد ولی باعث میشود انتخابهای ما بهینه نباشد.
- استفاده از الگوریتم اسمیت واترمن جهت محاسبه ی امتیاز بهینه برای همترازسازی (Alignment).
- در این مرحله از الگوریتم اسمیت واترمن برای بدست آوردن یک امتیاز بهینه برای هر هم ترازسازی توالی های query و توالی های موجود در پایگاه داده استفاده می کند. سپس یک باند 32 تایی حول منطقه ی init1 که در مرحله ی 2 بدست آمده کشیده شود تا همترازی بهینه محاسبه شود. پس از اینکه همه ی توالی ها جستجو شدند، برنامه امتیازهای اولیه ی هر توالی موجود در پایگاه داده را در یک بافتنگار رسم می کند و امتیازهایی که از نظر آماری معنی دارند را محاسبه می کند. برای توالی پروتیئن ها همترازسازی نهایی با همترازسازی اسمیت واترمن بدست می آید. و برای توالی های دی ان ای یک همترازسازی نواری بدست می آید.
همچنین ببینید [ویرایش]
منابع [ویرایش]
- ↑ Lipman, DJ; Pearson, WR (1985). "Rapid and sensitive protein similarity searches". Science 227 (4693): 1435–41. DOI:10.1126/science.2983426. PMID 2983426.
- ↑ Pearson, WR; Lipman, DJ (1988). "Improved tools for biological sequence comparison". Proceedings of the National Academy of Sciences of the United States of America 85 (8): 2444–8. DOI:10.1073/pnas.85.8.2444. PMC 280013. PMID 3162770. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pmcentrez&artid=280013.
مشارکتکنندگان ویکیپدیا، «FASTA»، ویکیپدیای انگلیسی، دانشنامهٔ آزاد.
پیوند به بیرون [ویرایش]
- FASTA Website
- EBI's FASTA page - EBI's page for accessing FASTA services.
