پیش‌نویس:AlphaFold

از ویکی‌پدیا، دانشنامهٔ آزاد

AlphaFold یک برنامه هوش مصنوعی (AI) است که توسط DeepMind ، یکی از شرکت‌های تابع Alphabet توسعه یافته و پیش‌بینی ساختار پروتئین را انجام می‌دهد. [۱] این برنامه به عنوان یک سیستم یادگیری عمیق طراحی شده است. [۲]

نرم افزار AlphaFold دو نسخه اصلی داشته است. تیمی از محققان که از AlphaFold 1 (2018) استفاده کردند، در رتبه‌بندی کلی سیزدهمین ارزیابی انتقادی پیش‌بینی ساختار (CASP) در دسامبر 2018 رتبه اول را کسب کردند. این برنامه به‌طور خاص در دقیق‌ترین پیش‌بینی برای ساختارِ اهداف (پروتئین)هایی که توسط برگزارکنندگان مسابقه به عنوان دشوارترین طبقه‌بندی شده بود، موفق عمل کرد. در این نوع پروتئین‌ها، هیچ ساختار قالبی و ازپیش‌تعیین‌شده از پروتئین‌های دیگری که دنباله‌ی تا حدودی مشابه داشتند مجود نبود. یک تیم که از AlphaFold 2 (2020) استفاده کرده بود، مانند تیم قبلی رتبه‌ اول را در رقابت CASP14 را در نوامبر 2020 تکرار کرد. [۳] این تیم به سطحی از دقت رسید که بسیار بالاتر از هر گروه دیگری بود. [۲] [۴] این برنامه، در آزمایش فاصله کلی (GDT) CASP برای حدود دو سوم پروتئین ها امتیاز بالاتر از ۹۰ به دست آورد. آزمایش فاصله‌ی کلی، میزان مشابه بودن ساختار پیش بینی شده توسط یک برنامه محاسباتی را با ساختار تعیین شده آزمایش آزمایشگاهی اندازه‌گیری می کندو در آن امتیاز 100 به‌معنی مطابقت کامل با محدوده‌ی فواصل قابل‌قبول مورد استفاده برای محاسبه‌ی GDT است. [۲] [۵]

نتایج AlphaFold 2 در CASP14 به عنوان "حیرت انگیز" [۶] و "متحول کننده" توصیف شد. [۷] برخی از محققان خاطرنشان کردند که دقت برای یک سوم پیش‌بینی‌های آن به اندازه‌ی کافی بالا نیست، و مکانیسم یا قوانین تاشدگی پروتئین را برای حل مشکل تا شدن پروتئین آشکار نمی‌کند. [۸] [۹] با این وجود، احترام و توجه گسترده‌ای برای دستاورد فنی این برنامه وجود دارد، و تحلیل‌ها نشان می‌دهند که AlphaFold 2 به اندازه کافی دقیق است تا حتی اثرات جهش تکی را پیش بینی کند. [۱۰] در 15 جولای 2021 مقاله AlphaFold 2 در Nature به عنوان یک نگارش پیشرفت دردسترس در کنار نرم افزار منبع باز و یک پایگاه داده قابل جستجو از پروتئوم گونه‌ها منتشر شد. [۱۱] [۱۲] [۱۳] نسخه پیشرفته تر AlphaFold در حال حاضر در دست توسعه است و این امکان را فراهم می‌کند که مجموعه‌های پروتئینی با اسیدهای نوکلئیک، لیگاندهای کوچک، یون ها و باقی مانده های اصلاح‌شده مدل‌سازی شوند. [۱۴]

three individual polypeptide chains at different levels of folding and a cluster of chains
زنجیره‌های اسید آمینه که به عنوان پلی پپتید شناخته می‌شوند، تا می‌شوند تا یک پروتئین تشکیل دهند.

پروتئین ها از زنجیره ای از اسیدهای آمینه تشکیل شده‌اند که به طور خودبه‌خود در فرآیندی به نام تاشدگی پروتئین تا می‌شوند تا ساختارهای سه بعدی (3-D) پروتئین ها را تشکیل دهند. ساختار سه بعدی برای عملکرد زیستی پروتئین بسیار مهم است. با این حال، درک اینکه چگونه توالی اسید آمینه می‌تواند ساختار سه بعدی را تعیین کند بسیار چالش‌برانگیز است و به این "مسئله‌ی تاشدگی پروتئین" می گویند. [۱۵] "مسئله‌ی تاشدگی پروتئین" شامل درک ترمودینامیک نیروهای بین اتمی‌ٍ تعیین کننده‌ی ساختار پایدار تاشده، مکانیسم و مسیری که یک پروتئین از طریق آن می تواند با سرعت بسیار بالا به حالت تاشده‌ی نهایی خود برسد، و چگونگی پیش‌بینی حالت طبیعی یک پروتئین از توالی اسید آمینه آن است. [۱۶]

ساختارهای پروتئینی در حال حاضر با استفاده از تکنیک‌های آزمایشگاهی مانند کریستالوگرافی اشعه ایکس ، میکروسکوپ کریو الکترونی و رزونانس مغناطیسی هسته ای تعیین می شوند، تکنیک هایی که گران و زمان بر هستند. [۱۵] چنین تلاش هایی ساختار حدود 170000 پروتئین را در 60 سال گذشته شناسایی کرده است، در حالی که بیش از 200 میلیون پروتئین شناخته شده در بین انواع اشکال حیات وجود دارد. [۵] اگر بتوان ساختار پروتئین را تنها از روی توالی اسید آمینه پیش بینی کرد، به پیشرفت تحقیقات علمی کمک زیادی می کند. با این حال، پارادوکس لوینتال نشان می دهد با این که یک پروتئین می تواند در عرض چند میلی ثانیه تا شود، زمان لازم برای محاسبه تمام ساختارهای ممکن به طور تصادفی برای تعیین حالت طبیعی واقعی طولانی تر از سن جهان شناخته شده است. این مسئله پیش بینی ساختارهای پروتئینی را به مسئله‌ی بزرگی در زیست‌شناسی برای دانشمندان بدل کرده است. [۱۵]

در گذر سال‌ها، محققان از روش‌های محاسباتی متعددی برای حل مسئله پیش‌بینی ساختار پروتئین استفاده کرده‌اند، اما دقت آنها به جز پروتئین‌های ساده کوچک به دقت دست‌یافته در تکنیک‌های تجربی نزدیک نبوده است و این ارزش آن‌ها را محدود می‌کند. CASP که در سال 1994 راه اندازی شد تا جامعه علمی را برای تولید بهترین پیش‌بینی‌های ساختار پروتئین خود به چالش بکشد، دریافت که تا سال ۲۰۱۶ تنها می‌توان امتیاز حدود ۴۰ از ۱۰۰ GDT را برای سخت ترین پروتئین ها به دست آورد. [۵] AlphaFold در سال ۲۰۱۸ و با استفاده از تکنیک یادگیری عمیق هوش مصنوعی (AI) رقابت در CASP را آغاز کرد. [۱۵]

الگوریتم[ویرایش]

شناخته‌شده‌است که DeepMind برنامه‌ی AlphaFold را روی حدود ‍۱۷۰۰۰۰ پروتئین از منبع عمومی دنباله و ساختار پروتئین آموزش داده‌است. این برنامه از شکلی از شبکه توجه استفاده می‌کند، یک تکنیک یادگیری عمیق که بر روی شناسایی بخش‌هایی از یک مشکل بزرگ‌تر توسط هوش مصنوعی تمرکز می‌کند، سپس آن را با هم ترکیب می‌کند تا راه‌حل کلی را به دست آورد. [۲] آموزش روی‌هم‌رفته بر روی توان پردازشی بین 100 تا 200 GPU انجام شد. [۲] آموزش سیستم بر روی این سخت افزار "چند هفته" طول کشید، پس از آن، برنامه برای هر ساختار پروتئینی "چند روز" زمان نیاز دارد تا همگرا شود. [۱۷]

AlphaFold 1، 2018[ویرایش]

AlphaFold در سال ۲۰۱۸ بر پایه‌ی کارهای صورت گرفته توسط تیم‌های مختلف در دهه 2010 ساخته شد، کارهایی که به بانک‌های بزرگ داده‌های توالی‌های مرتبط DNA نگاه می‌کردند تا تغییراتی که در باقی‌مانده‌ها هم‌بسته به نظر می‌رسیدند را بیابند. با وجود این که این باقی‌مانده‌ها در زنجیره‌ی اصلی متوالی نبودند. این بانک‌های داده اکنون برای ارگانیسم‌های متعددی موجودند (اکثرا بدون ساختار سه‌بعدی شناخته‌شده). چنین همبستگی‌هایی نشان می‌دهد که باقی‌مانده‌ها ممکن است از نظر فیزیکی به یکدیگر نزدیک باشند، حتی اگر در توالی نزدیک نباشند، که اجازه می‌دهد یک نقشه تماس تخمین زده شود. با تکیه بر کارهای اخیر قبل از سال 2018، AlphaFold 1 این را گسترش داد تا یک توزیع احتمال را برای میزان نزدیک بودن باقیمانده ها تخمین بزند. این امر، نقشه تماس را به یک نقشه فاصله احتمالی تبدیل کرد. همچنین از روش های یادگیری پیشرفته تری نسبت به قبل برای توسعه استنتاج استفاده کرد. پس از ترکیب یک پتانسیل آماری بر اساس این توزیع احتمال و انرژی آزاد موضعی محاسبه‌شده برای پیکربندی، تیم توانست گرادیان کاهشی استفاده کند تا که به پاسخی برسد که بهترین وجه هر دو را برازش می‌کند.[نیازمند شفاف‌سازی][ توضیحات لازم ] [۱۸] [۱۹]  

منابع[ویرایش]

  1. "AlphaFold". Deepmind. Retrieved 30 November 2020.
  2. ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ ۲٫۴ "DeepMind's protein-folding AI has solved a 50-year-old grand challenge of biology". MIT Technology Review (به انگلیسی). Retrieved 2020-11-30. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «mittr20201130» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
  3. Shead, Sam (2020-11-30). "DeepMind solves 50-year-old 'grand challenge' with protein folding A.I." CNBC (به انگلیسی). Retrieved 2020-11-30.
  4. Stoddart, Charlotte (1 March 2022). "Structural biology: How proteins got their close-up". Knowable Magazine. doi:10.1146/knowable-022822-1. Retrieved 25 March 2022.
  5. ۵٫۰ ۵٫۱ ۵٫۲ Robert F. Service, 'The game has changed.' AI triumphs at solving protein structures, Science, 30 November 2020
  6. Mohammed AlQuraishi, CASP14 scores just came out and they're astounding, Twitter, 30 November 2020.
  7. Callaway, Ewen (2020-11-30). "'It will change everything': DeepMind's AI makes gigantic leap in solving protein structures". Nature (به انگلیسی). 588 (7837): 203–204. Bibcode:2020Natur.588..203C. doi:10.1038/d41586-020-03348-4. PMID 33257889.
  8. Stephen Curry, No, DeepMind has not solved protein folding, Reciprocal Space (blog), 2 December 2020
  9. Balls, Phillip (9 December 2020). "Behind the screens of AlphaFold". Chemistry World.
  10. McBride, John M.; Polev, Konstantin; Abdirasulov, Amirbek; Reinharz, Vladimir; Grzybowski, Bartosz A.; Tlusty, Tsvi (2023-11-20). "AlphaFold2 Can Predict Single-Mutation Effects". Physical Review Letters (به انگلیسی). 131 (21). arXiv:2204.06860. doi:10.1103/PhysRevLett.131.218401. ISSN 0031-9007.
  11. Jumper, John; Evans, Richard; Pritzel, Alexander; Green, Tim; Figurnov, Michael; Ronneberger, Olaf; Tunyasuvunakool, Kathryn; Bates, Russ; Žídek, Augustin (2021-07-15). "Highly accurate protein structure prediction with AlphaFold". Nature (به انگلیسی). 596 (7873): 583–589. Bibcode:2021Natur.596..583J. doi:10.1038/s41586-021-03819-2. PMC 8371605. PMID 34265844.
  12. "GitHub - deepmind/alphafold: Open source code for AlphaFold". GitHub (به انگلیسی). Retrieved 2021-07-24.
  13. "AlphaFold Protein Structure Database". alphafold.ebi.ac.uk. Retrieved 2021-07-24.
  14. A glimpse of the next generation of AlphaFold, 31 October 2023, by Google DeepMind AlphaFold team and Isomorphic Labs team
  15. ۱۵٫۰ ۱۵٫۱ ۱۵٫۲ ۱۵٫۳ "AlphaFold: Using AI for scientific discovery". Deepmind. Retrieved 2020-11-30. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:3» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
  16. Ken A. Dill; S. Banu Ozkan; M. Scott Shell; Thomas R. Weikl (2008). "The Protein Folding Problem". Annual Review of Biophysics. 37: 289–316. doi:10.1146/annurev.biophys.37.092707.153558. PMC 2443096. PMID 18573083.
  17. "AlphaFold: a solution to a 50-year-old grand challenge in biology". Deepmind. Retrieved 30 November 2020.
  18. Mohammed AlQuraishi (May 2019), AlphaFold at CASP13, Bioinformatics, 35(22), 4862–4865 doi:10.1093/bioinformatics/btz422. See also Mohammed AlQuraishi (December 9, 2018), AlphaFold @ CASP13: "What just happened?" (blog post).

    Mohammed AlQuraishi (15 January 2020), A watershed moment for protein structure prediction, Nature 577, 627–628 doi:10.1038/d41586-019-03951-0
  19. AlphaFold: Machine learning for protein structure prediction, Foldit, 31 January 2020