فست ای

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

فست ای (به انگلیسی: FASTA) یک پکیج نرم‌افزاری هم‌ترازسازی توالی پروتئین و دی ان ای است که برای نخستین بار به نام (FASTP) توسط David J. Lipman و William R. Pearson در سال ۱۹۸۵[۱] معرفی گردید. میراث آن فرمت فست ای است، که امروزه در همه جای علم بیوانفورماتیک مشهود می‌باشد.

تاریخچه[ویرایش]

نخستین بار برنامه FASTP جهت بررسی تشابه توالی پروئینی نوشته شد. فست ای این توانایی را داشت که جستجوی دی ان ای:دی ان ای و همچنین جستجوی پروتئین ترجمه شده:دی ان ای را انجام دهد، همچنین برنامه پیچیده تری جهت ارزیابی اهمیت آماری آن ارائه نمود.[۲] این بسته نرم‌افزاری شامل برنامه‌های مختلف می‌باشد که امکان همترازسازی رشته‌های پروتئینی و دی ان ای را می‌دهد.

کاربردها[ویرایش]

فست ای "fast A" تلفظ شده و همچنین به آن "FAST-All" هم گفته می‌شود، بدین دلیل که این زبان برنامه نویسی قابلیت کار با کلیه حروف الفبایی را دارد. این برنامه دارای دو ورژن الحاقی از "FAST-P" (همترازی پروتئین) و "FAST-N" (همترازی نوکلئوتید)، می‌باشد. بسته نرم‌افزاری فست ای که هم اکنون مورد استفاده قرار می‌گیرد شامل برنامه‌هایی برای جستجوی پروتئین:پروتئین، دی ان ای:دی ان ای، پروتئین:دی ان ای ترجمه شده(همراه با تغییرات محتوا) و جستجوی پپتیدهای آرایش یافته و آرایش نیافته، می‌باشد. نسخه‌های نهایی فست ای شامل الگوریتمهای جستجوی ویژه‌ای می‌باشد که جهت تصحیح خطاهای تغییر محتوا، هنگام بررسی توالی داده پروتئین با نوکلئوتید، مورد استفاده قرار می‌گیرد.

علاوه بر این جهت افزایش سرعت روشهای جستجوی اکتشافی(heuristic search)، بسته نرم‌افزاری فست ای مجهز به (SSEARCH)ابزاری برای بهینه سازی الگوریتم اسمیت واترمن می‌باشد.

بیشترین تمرکز این بسته نرم‌افزاری بر روی صحت آمار مشابه می‌باشد، بنابراین زیست شناسان براحتی می‌توانند در مورد اینکه یک همترازی بصورت اتفاقی حاصل شده و یا ممکن است به واسطه هومولوژی باشد، اظهار نظر نمایند. این بسته نرم‌افزاری هم اکنون در fasta.bioch.virginia.edu موجود می‌باشد.

پایگاه اینترنتی web-interface، جهت ثبت توالی‌ها برای جستجوی پایگاه داده های آنلاین European European Bioinformatics Institute (EBI)'s در دسترس بوده و همچنین قابلیت استفاده از برنامه‌های فست ای بر روی این وبگاه، امکان پذیر می‌باشد. FASTA file format بعنوان وروردی این نرم‌افزار، امروزه در مقیاس وسیعی توسط دیگر ابزارات جستجوی پایگاه داده توالی(مانند بلاست) و یا برنامه‌های هم‌ترازسازی توالی(مانند کلاستال, تی-کافی و...) مورد استفاده قرار می‌گیرد.

روش بررسی[ویرایش]

فست ای یک نوکلئوتید یا یک رشته آمینو اسید را بعنوان ورودی دریافت کرده و به کمک هم‌ترازسازی محلی توالی داده ی ورودی و توالی هایی که در پایگاه داده هستند، تشابهات توالی های متعلق به پایگاه داده های یکسان را پیدا کند.

برنامه فست ای از یک روش Heuristic بسیار گسترده پیروی می‌نماید که سرعت اجرای برنامه را بسیار ارتقا داده‌است. روش کار بدین صورت است که برنامه ابتدا یک الگو برای شناخت کلمات در نظر می‌گیرد سپس بر اساس طول جمله، کلمات متناظر با هم را تفکیک می‌نماید سپس کلماتی را که داری بیشتر احتمال تناظر هستند را (قبل از اجرای بیشتر یک جستجوی بهینه سازی زمانگیر با استفاده از الگوریتم Smith-Waterman ) علامت می زند.

سایز لغت ورودی که با تحت عنوان ktup نامگذاری می‌شود، تعیین کننده سرعت و حساسیت اجرای برنامه می‌باشد.

تفاوتهایی بین fastn و fastp وجود دارد که به دلیل نوع رشته‌هایی است که مورد استفاده قرار می‌گیرد. با وجود این هر دوی آنها دارای چهار مرحله هستند و هر دوی آنها از سه امتیازبندی جهت توصیف و قالب بندی کردن نتایج تشابه توالی ها استفاده می کنند.که عبارتند از:

  • شناسایی مناطقی که دارای بیشترین تعداد رشته‌های مشابه می‌باشند (با ktup با اندازه ی ۱ یا ۲).
در این مرحله همه گروه‌ها و یا یک گروه از تشابهات رشته‌های متناظر با استفاده از جدول look-up شناسایی شده است. مقیاس ktup مشخص می کند که چه تعداد تطابق پشت سرهم نیاز است تا یک مچ اتفاق بیفتد. بدیهی است که هر چقدر اندازه ی ktup کمتر باشد، حساسیت جستجو بیشتر می شود. اکثراً برای رشته‌های پروتئینی ktup=2 و برای رشته‌های نوکلئوتید 4=ktup ویا ktup=6 تعریف می شود. اولیگونوکلئوتیدهای کوچک معمولاً توسط ktup=1 اجرا می‌شوند.
پس از آن برنامه تمام تمام مکانهای مشابه محلی را که بصورت قطرهایی با طول مشخص در نمودار نقطه ای نمایش داده شده اند را شناسایی می نماید . که در واقع این کار از طریق شمارش تطابق ktup ها و جریمه کردن عدم تطابق ها میسر می شود. در ادامه مناطق محلی که بیشترین میزان تطابق در قطرها صورت گرفته از بقیه ایزوله می شوند. برای توالی های پروتئینی از BLOSUM50 جهت امتیاز بندی تطابق ktup استفاده می‌شود. رشته‌های نوکلئوتیدی از ماتریس همانی برای این منظور استفاده می‌کنند. در نهایت ۱۰ تا از بهترین ناحیه های محلی از بین همه ی قطرها انتخاب شده در کنار هم قرار می گیرند و سپس ذخیره می‌گردند.
  • اسکن مجدد مناطق انتخاب شده با استفاده از ماتریس نمره دهی جهت کسب بالاترین امتیاز ممکن.
اسکن مجدد ۱۰ مکان انتخاب شده. در این مرحله از ماتریس امتیاز بندی جهت امتیاز بندی مناطقی که طول کمتر از ktup دارند، استفاده میشود. همزمان با امتیاز دهی،تعویضهایی که بر امتیاز شباهت تاثیر می گذارد انجام می شود. با وجود اینکه توالی های پروتئین ها از ماتریس BLOSUM50 (که امتیازدهی را براساس کمترین میزان تغییراتی که نیاز است تا یک جابجایی رخ دهد) استفاده می کنند،از یک معیار شباهت دیگر به اسم PAM هم می توان استفاده کرد. به ازای هر قطری که به این صورت اسکن می شود، مناطقی با بیشترین امتیاز مشخص میشوند. امتیاز اولیه ای که در مرحله ی 1 بدست آمد، برای رتبه گذاری کتابخانه ی توالی ها مورد استفاده قرار می گیرد. این امتیاز اولیه init1 نامیده می شود.
  • در یک همترازسازی(Alignment)،اگر چند ناحیه اولیه با امتیاز بیشتر از CUTOFF پیدا شد، بررسی کنید که آیا این نواحی می توانند به هم ملحق شوند و یک همترازی با گپ را تشکیل دهند. سپس امتیاز شباهت را محاسبه کنید که این مقدار برابر با حاصل جمع مناطق الحاق شده با جریمه ی گپ برابر با 20 است. امتیاز شباهت اولیه (initn) برای رتبه بندی کتابخانه توالی ها استفاده می شود. و بالاترین امتیاز پیدا شده در مرحله ی 2 گزارش می شود(init1).
در این مرحله برنامه مناطق اولیه که ترکیبی از مناطق با بیشترین امتیاز هستند را بصورت بهینه ای همتراز(Align) می کند. این همترازی بهینه سریعاً توسط الگوریتم برنامه نویسی پویا انجام می شود.
امتیاز بدست آمده برای رتبه بندی کتابخانه توالی ها استفاده می شود. این فرایند الحاق سازی حساسیت را افزایش می دهد ولی باعث میشود انتخابهای ما بهینه نباشد.
در این مرحله از الگوریتم اسمیت واترمن برای بدست آوردن یک امتیاز بهینه برای هر هم ترازسازی توالی های query و توالی های موجود در پایگاه داده استفاده می کند. سپس یک باند 32 تایی حول منطقه ی init1 که در مرحله ی 2 بدست آمده کشیده شود تا همترازی بهینه محاسبه شود. پس از اینکه همه ی توالی ها جستجو شدند، برنامه امتیازهای اولیه ی هر توالی موجود در پایگاه داده را در یک بافت‌نگار رسم می کند و امتیازهایی که از نظر آماری معنی دارند را محاسبه می کند. برای توالی پروتیئن ها هم‌ترازسازی نهایی با هم‌ترازسازی اسمیت واترمن بدست می آید. و برای توالی های دی ان ای یک هم‌ترازسازی نواری بدست می آید.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. Lipman, DJ; Pearson, WR (1985). "Rapid and sensitive protein similarity searches". Science 227 (4693): 1435–41. doi:10.1126/science.2983426. PMID 2983426. 
  2. Pearson, WR; Lipman, DJ (1988). "Improved tools for biological sequence comparison". Proceedings of the National Academy of Sciences of the United States of America 85 (8): 2444–8. doi:10.1073/pnas.85.8.2444. PMC 280013. PMID 3162770. 

مشارکت‌کنندگان ویکی‌پدیا، «FASTA»، ویکی‌پدیای انگلیسی، دانشنامهٔ آزاد.

پیوند به بیرون[ویرایش]