معماری سوپر کامپیوتر[ویرایش]

رویکردهای معماری سوپرکامپیوتر از زمان معرفی اولین سیستم‌ها در دهه ۱۹۶۰ تا به حال تغییرات چشمگیری داشته است. معماری‌های اولیه سوپرکامپیوتر که توسط سیمور کرِی پایه‌گذاری شد،از طراحی‌های کوچک و نوآورانه و همچنین پردازش موازی محلی، برای دستیابی به عملکرد بیشینه محاسباتی برتر استفاده می‌کردند.^[1] با این حال، با گذر زمان، تقاضا برای قدرت محاسباتی بیشتر باعث ورود دوران سیستم‌های به طور گسترده موازی شده شد.

در دهه 1970، سوپرکامپیوترها تنها از چندین پردازنده استفاده می‌کردند. اما در دهه 1990، کامپیوترهایی با هزاران پردازنده شروع به کار کردند و تا پایان قرن بیستم، سوپرکامپیوترهای با معماری همزمانی گسترده با ده‌ها هزار پردازنده با زیرساخت تجاری رایج شدند. سوپرکامپیوترهای قرن بیست و یک با استفاده از بیش از ۱۰۰٬۰۰۰ پردازنده (بعضی از آنها واحدهای گرافیکی) که از طریق اتصالات سریع به یکدیگر متصل شده‌اند، استفاده می‌کنند.^[2][3]

در طی دهه‌ها مدیریت چگالی حرارت یکی از مسائل اصلی برای اکثر کامپیوترهای متمرکز بزرگ بوده است.^[4][5][6] مقدار زیاد حرارتی که توسط یک سیستم تولید می‌شود، می‌تواند اثرات دیگری نیز داشته باشد، مانند کاهش عمر قطعات دیگر سیستم. ^[7] رویکردهای متنوعی برای مدیریت حرارت وجود داشته است، از جمله تزریق مایع فلورینت از طریق سیستم، استفاده از یک سیستم خنک کننده مایع-هوا یا خنک کننده هوایی با دمای تهویه‌ی هوای عادی مطبوع. ^[8][9]

سیستم‌هایی که از تعداد بسیار زیادی پردازنده استفاده می‌کنند، به طور کلی به یکی از دو روش عمل می‌کنند: در یک رویکرد، به عنوان مثال در محاسبات شبکه‌ای، قدرت پردازشی تعداد زیادی از کامپیوترها در دامنه‌های اداری متفاوت، به صورت تصادفی هر زمانی که یک کامپیوتر در دسترس است، استفاده می‌شود. ^[10]در رویکرد دیگر، تعداد زیادی پردازنده در نزدیکی یکدیگر استفاده می‌شوند به عنوان مثال در یک خوشه کامپیوتری. در چنین سیستم متمرکز با همزمانی گسترده، سرعت و انعطاف‌پذیری اتصال میان‌افزار بسیار مهم است و سوپرکامپیوترهای مدرن از روش‌های مختلفی استفاده کرده‌اند از سیستم های اینفینی‌باند بهبود یافته تا اتصالات سه بعدی تورس .^[11][12]

زمینه و نمای کلی[ویرایش]

از اواخر دهه 1960، رشد در قدرت و گسترش سوپرکامپیوترها قابل توجه بوده و جهت‌گیری‌های معماری زیربنایی این سیستم‌ها تغییرات مهمی داشته است. در حالی که سوپرکامپیوترهای اولیه به تعداد کمی از پردازنده‌های به صورت نزدیک اتصال یافته که به حافظه مشترک دسترسی داشتند، متکی بودند، سوپرکامپیوترهای قرن 21 از بیش از 100,000 پردازنده استفاده می‌کنند که توسط شبکه‌های سریع به هم متصل شده‌اند. ^[2][3]

طی دهه‌ها، مدیریت چگالی حرارت به عنوان یک مسئله کلیدی برای اکثر سوپرکامپیوترهای متمرکز باقی مانده است. ^[4] شعار “خارج کردن حرارت” سیمور کرِی، محور فلسفه طراحی او بود و همچنان به عنوان یک مسئله کلیدی در معماری‌های سوپرکامپیوتر باقی مانده است، به عنوان مثال در آزمایشات بزرگ‌مقیاس مانندBlue Waters .^[4][5][6] حجم زیاد حرارت تولید شده توسط یک سیستم ممکن است تأثیرات دیگری ، مانند کاهش عمر قطعات دیگر سیستم نیز داشته باشد. ^[7]

در مدیریت حرارت، رویکردهای متنوعی وجود داشته است، به عنوان مثال در کامپیوتر Cray 2 از فلورینرت پمپ شده از طریق سیستم استفاده می‌شد، در حالی که سیستم X از یک سیستم خنک کننده مخلوط مایع و هوا استفاده می‌کرد و Blue Gene/P با هوای معمولی تهویه هوا خنک شده بود. .^[8][13][14] حرارت از سوپرکامپیوتر Aquasar برای گرم کردن دانشگاه مورد استفاده قرار گرفته است. .^[15][16]

قدرت گرمایی تولید شده توسط یک سوپرکامپیوتر به صورت مستقیم به نوع پردازنده‌ای که در سیستم استفاده می‌شود وابسته است، به طوری‌که پردازنده‌های قوی‌تر معمولاً بیشترین گرما را تولید می‌کنند؛ با تکنولوژی‌های نیمه‌رسانایی مشابه. ^[7] در حالی که سوپرکامپیوترهای اولیه از چند پردازنده سریع و نزدیک به هم استفاده می‌کردند که از همزمانی محلی (مانند لوله‌ای پایپلاینینگ و پردازش برداری) بهره می‌بردند، با گذر زمان تعداد پردازنده‌ها افزایش یافت و گره‌های محاسباتی می‌توانستند در مکان‌های دورتری قرار گیرند، مانند در یک خوشه کامپیوتری، یا می‌توانستند به صورت جغرافیایی در پردازش‌های شبکه‌ای پخش شوند. ^[2][17]

با افزایش تعداد پردازنده‌ها در یک سوپرکامپیوتر؛ "نرخ خرابی قطعه" به یک مسأله جدی تبدیل می‌شود. اگر یک سوپرکامپیوتر از هزاران گره استفاده کند و هر کدام احتمالاً یک بار در سال معمولاً خراب شوند، آن‌گاه سیستم به چندین خرابی گره در هر روز مواجه خواهد شد. ^[9]

همانطور که قیمت و عملکرد پردازشگرهای گرافیک عمومی (GPGPUs) بهبود یافته است، تعدادی از سوپرکامپیوترهای پتافلاپ مانند تیانه و نبوله برای وابستگی به آنها آغاز کرده‌اند. ^[18] با این حال، سیستم‌های دیگری مانند کامپیوتر K همچنان از پردازنده‌های سنتی مانند طراحی‌های مبتنی بر SPARC استفاده می‌کنند و کاربرد کلی GPGPUs در برنامه‌های کامپیوتینگ عالی عمومی موضوعی بحثی است. در واقع، در حالی که یک GPGPU ممکن است برای نمره گرفتن خوب در بنچمارک‌های خاص تنظیم شود، اما کاربرد کلی آن در الگوریتم‌های روزمره ممکن است محدود باشد مگر اینکه تلاش قابل توجهی صرف شود تا برنامه به سمت آن تنظیم شود. ^[19] با این حال، GPUها در حال پیشرفت هستند و در سال ۲۰۱۲، با جایگزینی پردازنده‌ها با GPUها سوپرکامپیوتر جگوار به تایتان تبدیل شد. .^[20][21][22]

با افزایش تعداد پردازنده‌های مستقل در یک سوپرکامپیوتر، روشی که آن‌ها به داده در سیستم فایل دسترسی پیدا می‌کنند و نحوه اشتراک‌گذاری و دسترسی منابع ذخیره‌سازی ثانویه مهم است. در طول سال‌ها، تعدادی از سیستم‌های مدیریت فایل توزیع شده توسعه یافتند، مانند سیستم فایل موازی عمومی IBM، BeeGFS، فایل‌سیستم موازی مجازی، هد‌وپ و غیره. ^[23][24] تعدادی از سوپرکامپیوترها در فهرست TOP100 مانند Tianhe-I از سیستم فایل لاستر لینوکس استفاده می‌کنند.

سیستم‌های اولیه با چند پردازنده[ویرایش]

با سلسله کامپیوترهای CDC 6600، تلاش‌های زودهنگام در حوزه ابرکامپیوترها آغاز شد، و این کامپیوترها با اختصاص کار به دستگاه‌های جانبی، CPU (واحد پردازش مرکزی) را از پردازش داده‌های واقعی آزاد ساختند. با کمک کامپایلر Minnesota FORTRAN، می‌توانست باعث انجام 500 کیلوفلوپس در عملیات ریاضی استاندارد شود. ابرکامپیوترهای زودهنگام دیگر مانند Cray 1 و Cray 2 که پس از آن ظاهر شدند، از تعداد کمی از پردازنده‌های سریع استفاده می‌کردند که با هم هماهنگ بودند و به حداکثر مقدار حافظه مشترکی که می‌توانست در آن زمان مدیریت شود متصل می‌شدند. ^[3]

این ساختارهای ابتدایی که پردازش موازی را در سطح پردازنده معرفی کردند، نوآوری‌هایی داشتند مانند پردازش برداری، که در آن پردازنده می‌توانست در یک چرخه‌ی ساعتی چند عملیات را انجام دهد، به جای اینکه برای چرخه‌های متوالی منتظر بماند.

با گذر زمان، با افزایش تعداد پردازنده‌ها، مسائل معماری مختلفی به وجود آمد. دو مسئله که تعداد پردازنده‌ها را افزایش می‌دهند، توزیع حافظه و پردازش هستند. در رویکرد حافظه توزیع‌شده، هر پردازنده فیزیکی به همراه حافظه محلی‌ای بسته می‌شود. حافظه مرتبط با پردازنده‌های دیگر بر اساس پارامترهای پهنای باند و تاخیر به عنوان دسترسی به حافظه غیر یکنواخت مدیریت می‌شود. در دهه ۱۹۶۰، pipelining به عنوان یک نوآوری شناخته می‌شد، و تا دهه ۱۹۷۰، استفاده از پردازنده‌های برداری به خوبی استقرار یافته بود. تا دهه ۱۹۸۰، بسیاری از ابرکامپیوترها از پردازنده‌های برداری موازی استفاده می‌کردند. ^[2]

قدمت اولیه سیستم‌های محاسباتی کم تعداد پردازنده، امکان استفاده‌ی آسان از معماری حافظه‌ی مشترک را فراهم می‌کرد، که این اجازه را به پردازنده‌ها می‌دهد تا به یک منبع حافظه‌ی مشترک دسترسی پیدا کنند. در اوایل روزهای پیشرفت، از رویکرد معمول دسترسی یکنواخت به حافظه (UMA) استفاده می‌شد، که در آن زمان دسترسی به یک مکان حافظه بین پردازنده‌ها مشابه بود. استفاده از دسترسی غیر یکنواخت به حافظه (NUMA) به یک پردازنده اجازه می‌دهد تا به حافظه‌ی محلی خود نسبت به دیگر مکان‌های حافظه، سریع‌تر دسترسی پیدا کند در حالی که معماری حافظه‌ی نهان (COMA) امکان استفاده از حافظه‌ی محلی هر پردازنده به عنوان حافظه‌ی نهان را به وجود می‌آورد و برای زمانی که مقادیر حافظه تغییر می‌کنند نیازمند هماهنگی است.^[26]

با افزایش تعداد پردازنده‌ها، ارتباط و هماهنگی کارآمد بین پردازنده‌ها در یک سوپر کامپیوتر چالش‌بار می‌شود. برای دستیابی به این هدف، می‌توان از تعدادی رویکردهای مختلف استفاده کرد. به عنوان مثال، در اوایل دهه‌ی ۱۹۸۰، در سیستم Cray X- MP از ثبت‌های مشترک استفاده می‌شد. در این رویکرد، تمام پردازنده‌ها به ثبت‌های مشترک دسترسی داشتند که اطلاعات را به حرکت در نمی‌آوردند بلکه فقط برای ارتباط و هماهنگی میان پردازنده‌ها استفاده می‌شدند. با این حال، چالش‌های ذاتی در مدیریت حافظه‌ی مشترک بین پردازنده‌های متعدد، منجر به معماری‌های پراکنده بیشتری شد. ^[27]

همزمانی مرکزی و گسترده[ویرایش]

در دهه ۱۹۸۰، با افزایش تقاضای قدرت محاسباتی، روند استفاده از تعداد بسیار زیادی پردازنده آغاز شد که به دوران سیستم‌های بسیار موازی منجر شد. این سیستم‌ها دارای حافظه توزیع شده و سیستم‌های فایل توزیع شده بودند، زیرا معماری حافظه مشترک نمی‌توانست با تعداد زیادی پردازنده مقیاس پذیر باشد. ^[2][28] به دنبال این سیستم‌های اولیه، رویکردهای ترکیبی مانند حافظه مشترک توزیع شده نیز ظاهر شدند. ^[29]

روش خوشه‌بندی کامپیوتری تعدادی از گره‌های محاسباتی آماده‌ی موجود را (مانند کامپیوترهای شخصی مورد استفاده به عنوان سرورها) از طریق شبکه محلی خصوصی و سریع به یکدیگر متصل می‌کند. ^[30] فعالیت‌های گره‌های محاسباتی توسط "میان افزار گروه‌بندی" هماهنگ می‌شود، یک لایه نرم‌افزاری که در بالای گره‌ها قرار دارد و به کاربران امکان می‌دهد گروه را به عنوان یک واحد محاسباتی یکپارچه تلقی کنند.به عنوان مثال از طریق مفهوم تصویر سیستم تکی. ^[30]

گروه‌بندی کامپیوتری بر اساس یک رویکرد مدیریت متمرکز که گره‌ها را به عنوان سرورهای مشترک باهم تنظیم می‌کند، استوار است. این از رویکردهای دیگری مانند محاسبات همتا به همتا یا شبکه‌بندی که نیز از تعداد زیادی گره استفاده می‌کنند اما با بخش بیشتری توزیع شده هستند، متمایز است. .^[30] در اوایل قرن ۲۱، فهرست نیمه‌سالانه سازمان TOP500 که شامل ۵۰۰ سریع‌ترین رایانه فوق‌توانمند است، اغلب شامل بسیاری از گروه‌ها است، به عنوان مثال رایانه‌ای با حافظه توزیع شده و معماری گروهی بهترین رایانه جهان در سال ۲۰۱۱، رایانه K بود. ^[31][32]

وقتی تعداد زیادی گره‌های محاسباتی محلی شبه‌مستقل استفاده می‌شود (به عنوان مثال در یک معماری گروه‌بندی) سرعت و انعطاف پذیری اتصال بسیار مهم است. سوپر کامپیوترهای مدرن رویکردهای مختلفی را برای پرداختن به این مسئله انتخاب کرده‌اند، به عنوان مثال تیانه از یک شبکه خصوصی با سرعت بالا بر اساس Infiniband QDR که با CPUهای FeiTeng-1000 تقویت شده‌است، استفاده می‌کند. ^[4] از طرف دیگر، سیستم Blue Gene/L از یک اتصال توروس سه‌بعدی برای ارتباطات جهانی استفاده می‌کند. ^11] در این رویکرد هر گره به شش همسایه نزدیک خود متصل است. یک توروس مشابه توسط Cray T3E استفاده شده‌است^[12].

سیستم‌های مرکزی بسیار موازی گاهی اوقات از پردازنده‌های خاص طراحی شده برای یک برنامه خاص استفاده می‌کنند و ممکن است از تراشه‌های FPGA برای به دست آوردن عملکرد استفاده کنند. مثال‌هایی از سوپر کامپیوتر های خاص شامل بل،^[33] دیپ بلو،^[34] و هیدرا،^[35] برای بازی شطرنج، لوله گرانش برای استعراض‌های فیزیک نجومی،^[36] MDGRAPE-3 برای محاسبه ساختار پروتئین^[37] و دیناگون عمیق، ^[38] برای شکستن رمز DES می‌باشند.

توازی پراکنده عظیم[ویرایش]

Grid computing یک رویکرد محیطی است که از یک تعداد بزرگ از کامپیوترها در دامنه‌های مدیریتی توزیع‌شده و متنوع استفاده می‌کند. این یک رویکرد فرصت‌بومی است که همواره از منابعی که در دسترس هستند. استفاده می‌کند. ^[10]

یک مثال از این نوع سیستم‌ها، BOINC است که یک سیستم شبکه‌ای فرصت‌بومی مبتنی بر اراده اعضا است. ^[39] برخی از برنامه‌های BOINC با اتصال تقریباً نیم میلیون کامپیوتر از طریق اینترنت به دست میلیون‌ها پتافلاپ به سطح رسیده‌اند. ^[40] با این حال، این نوع نتایج اغلب در رتبه‌بندی TOP500 ظاهر نمی‌شوند زیرا این برنامه‌ها Linpack را اجرا نمی‌کنند.

اگرچه grid computing در اجرای وظایف موازی موفق بوده است، برخی از برنامه‌های پردازشی نیازمند ماشین‌های ابری مانند شبیه‌سازی‌های هواشناسی یا دینامیک سیالات محاسباتی به دلیل مشکلات تخصیص زیرمجموعه‌های قابل اعتماد از تعداد زیادی وظیفه و همچنین در دسترسی قابل اعتماد منابع در یک زمان داده شده، بی‌توجه مانده‌اند.

در quasi-opportunistic supercomputing، یک تعداد بزرگی از کامپیوترهای جغرافیایی متفرقه با حفاظت‌های داخلی هماهنگ می‌شوند. این رویکرد quasi-opportunistic به استفاده از محاسبات اراده‌ای در سیستم‌های شبکه‌ای بسیار توزیع‌شده مانند BOINC یا grid computing عمومی برای انجام دادن دسترسی تقریباً بی‌هیچ نقص به چندین خوشه محاسباتی اجازه می‌دهد تا برنامه‌های موجود به زبان‌هایی مانند Fortran یا C بین چندین منبع محاسباتی توزیع شوند. ^[43]

هدف اصلی quasi-opportunistic supercomputing ارائه کیفیت خدمات بهتری نسبت به به اشتراک گذاری منابع فرصت‌بومی است. این رویکرد quasi-opportunistic به اجرای برنامه‌های پرسرعت در شبکه‌های کامپیوتری با برقراری توافقات تخصیص منابع به سطح شبکه، و انتقال پیام‌های مقاومت‌پذیر برای محافظت انتزاعی در برابر خرابی‌های منابع زیرین، تا حدی فرصت‌بومیت نگه داشته می‌شود، در حالی که سطح بالاتری از کنترل را فراهم می‌کند. [10][43][45]

روندهای معماری قرن 21[ویرایش]

IBM Blue Gene معماری رایانه فوق‌العاده خنک شده با هوا از سرعت پردازنده برای مصرف کم‌تر انرژی استفاده می‌کند تا تعداد بیشتری از پردازنده‌ها را با با استفاده از تهویه معمولی هوا با دمای اتاق می‌توان استفاده کرد. ^[14][46] سیستم نسل دوم Blue Gene/P دارای پردازنده‌ها با منطق ارتباط گره به گره یکپارچه است. این دستگاه با کارایی انرژی بالا، 371 MFLOPS/W را به دست می‌آورد. ^[48]

کامپیوتر K یک سیستم با پردازندههای یکپارچه و حافظه توزیع شده، سیستم حافظه با معماری خوشهای خنک‌شده با آب است. این دستگاه از بیش از 80,000 پردازنده SPARC64 VIIIfx (هرکدام با 8 هسته) استفاده می‌کند، که تقریباً دو برابر هر سیستم دیگری بیش از 700,000 هسته دارد. این مجموعه از بیش از 800 کابینت تشکیل شده است، هرکدام دارای 96 گره محاسباتی (هرکدام با 16 گیگابایت حافظه) و 6 گره I/O. با وجود اینکه از توانایی بیشتری نسبت به پنج سیستم بعدی در لیست TOP500 برخوردار است، اما با نسبت توان به کارایی 824.56 MFLOPS/W، کمترین نسبت توان به عملکرد بین همه‌ی سیستم‌های فوق‌رایانه‌ای اصلی فعلی است. ^[50][51] سیستم جایگزین برای کامپیوتر K، با نام PRIMEHPC FX10 از همان ترکیب اتصالات توروس شش بعدی استفاده می‌کند، اما هنوز هر نود دارای یک پردازنده است. ^[52]

بر خلاف کامپیوتر K، سیستم Tianhe-1A از معماری هیبریدی استفاده می‌کند و پردازنده‌ها و GPUها را یکپارچه می‌کند. این سیستم از بیش از 14,000 پردازنده عمومی Xeon و بیش از 7,000 واحد پردازش گرافیکی عمومی (GPGPUs) Nvidia Tesla بر روی حدود 3,500 تیغه استفاده می‌کند. ^[53] این دارای 112 کابینه‌ی کامپیوتر و 262 ترابایت حافظه توزیع شده است؛ 2 پتابایت از ذخیره‌سازی دیسک از طریق فایل‌های خوشه‌ای بر روی Lustre پیاده‌سازی شده است. Tianhe-1 از یک شبکه ارتباطی با سرعت بالای اختصاصی برای اتصال پردازنده‌ها استفاده می‌کند. این شبکه ارتباطی اختصاصی بر پایه‌ی Infiniband QDR است که با پردازندههای FeiTeng-1000 محصول چینی ارتقاء یافته است. در مورد روندهای معماری قرن 21این سیستم دو برابر سریعتر از Infiniband ولی کمتر از بعضی از اتصالات در سایر سوپرکامپیوترها است.

در سال ۲۰۱۱، IBM مشارکت خود را در پروژه Blue Waters petaflops در دانشگاه ایلینوی پایان داد. معماری Blue Waters بر پایه پردازنده IBM POWER7 بود و قرار بود دارای ۲۰۰٬۰۰۰ هسته با یک پتابایت حافظه جهانی قابل دسترس و ۱۰ پتابایت فضای دیسک باشد. هدف از دستیابی به یک پتافلوپ پایدار، انتخاب‌های طراحی بود که عملکرد هسته‌های تکی را بهینه می‌کرد و بنابراین تعداد کمتری از هسته‌ها را داشت. انتظار می‌رفت تعداد کمتری از هسته‌ها به بهبود عملکرد در برنامه‌هایی که به خوبی به تعداد زیادی از پردازنده‌ها مقیاس نمی‌کردند، کمک کند. معماری حافظه جهانی قابل دسترس هم به حل مشکلات آدرس حافظه به نحوی کارآمد هدفمند می‌پرداخت. انتظار می‌رفت Blue Waters حداقل با سرعت پایدار یک پتافلوپ اجرا شود و بر روی رویکرد ویژه خنک‌کننده آب برای مدیریت گرما تکیه می‌کرد. در چهار سال اول عملکرد، بنیاد علوم ملی حدود ۲۰۰ میلیون دلار بر پروژه هزینه کرد. پس از آن، IBM گره محاسباتی Power 775 را از فناوری این پروژه منتشر کرد، اما عملیاتا رویکرد Blue Waters را رها کرد.

سیستم Cyclops64 از رویکرد "سوپرکامپیوتر در یک تراشه" استفاده می‌کند و از استفاده از پردازنده‌های پراکنده بزرگ دوری می‌کند. ^[60][61] هر تراشه Cyclops64 به صورت ۶۴ بیتی دارای ۸۰ پردازنده است و تمام سیستم از معماری حافظه‌ی گلوبال استفاده می‌کند. پردازنده‌ها از طریق یک سوییچ crossbar غیر داخلی مسدود نشده به یکدیگر متصل شده و از طریق حافظه گلوبال با یکدیگر ارتباط برقرار می‌کنند. در این معماری، حافظه نهان داده‌ها وجود ندارد، اما نیمی از هر بانک SRAM می‌تواند به عنوان حافظه scratchpad استفاده شود. ^[62]

این نوع معماری امکان پردازش موازی بدون ساختار را در یک سیستم حافظه غیر پیوسته به صورت پویا فراهم می‌کند اما برای نقش آفرینی بهینه الگوریتم‌های موازی بر روی یک سیستم با تعداد بسیاری هسته چالش‌ها ایجاد می‌کند. ^[61]

همچنین بنگرید به[ویرایش]

سیستم‌های عامل سوپرکامپیوترها

سوپرکامپیوترها در چین

سوپرکامپیوترها در اروپا

تاریخچه سوپرکامپیوترها

سوپرکامپیوترها در هند

سوپرکامپیوترها در ژاپن

منابع[ویرایش]

1. Sao-Jie Chen; Guang-Huei Lin; Pao-Ann Hsiung; Yu-Hen Hu (9 February 2009). Hardware Software Co- Design of a Multimedia Soc Platform (https://books.google.com/books?id=OXyo3om9ZOkC) . Springer. pp. 70–72. ISBN 978-1-4020-9622-8. Retrieved 15 June 2012.

2. Hoffman, Allan R. (1989). Supercomputers : directions in technology and applications. Washington, D.C.: National Academy Press. pp. 35–47. ISBN 978-0-309-04088-4.

3. Hill, Mark D.; Jouppi, Norman P.; Sohi, Gurindar (2000). Readings in computer architecture. San Francisco: Morgan Kaufmann. pp. 40–49. ISBN 978-1-55860-539-8.

4. Yang, Xue-Jun; Liao, Xiang-Ke; Lu, Kai; Hu, Qing-Feng; Song, Jun-Qiang; Su, Jin-Shu (2011). "The TianHe-1A Supercomputer: Its Hardware and Software". Journal of Computer Science and Technology. 26 (3): 344–351. doi:10.1007/s02011-011-1137-8 (https://doi.org/10.1007%2Fs02011-011-1137-8) . S2CID 1389468 (https://api.semanticscholar.org/CorpusID:1389468) .

5. Murray, Charles J. (1997). The supermen : the story of Seymour Cray and the technical wizards behind the supercomputer (https://archive.org/details/supermenstory00murr/page/133) . New York: John Wiley. pp. 133–135 (https://archive.org/details/supermenstory00murr/page/133) . ISBN 978-0-471- 04885-5.

6. Biswas, Rupak, ed. (2010). Parallel computational ﬂuid dynamics : recent advances and future directions : papers from the 21st International Conference on Parallel Computational Fluid Dynamics. Lancaster, Pa.: DEStech Publications. p. 401. ISBN 978-1-60595-022-8.

7. Yongge Huáng, ed. (2008). Supercomputing research advances. New York: Nova Science Publishers. pp. 313–314. ISBN 978-1-60456-186-9.

8. Tokhi, M. O.; Hossain, M. A.; Shaheed, M. H. (2003). Parallel computing for real-time signal processing and control. London [u.a.]: Springer. pp. 201–202. ISBN 978-1-85233-599-1.

9. Vaidy S. Sunderam, ed. (2005). Computational science -- ICCS 2005. 5th international conference, Atlanta, GA, USA, May 22-25, 2005 : proceedings (1st ed.). Berlin: Springer. pp. 60–67. ISBN 978-3-540- 26043-1.

10. Prodan, Radu; Thomas Fahringer (2007). Grid computing experiment management, tool integration, and scientiﬁc workﬂows. Berlin: Springer. pp. 1–4. ISBN 978-3-540-69261-4.

11. Knight, Will (27 June 2007). "IBM creates world's most powerful computer" (https://www.newscientist. com/article/dn12145-ibm-creates-worlds-most-powerful-computer.html) . New Scientist.

12. Adiga, N. R.; Blumrich, M. A.; Chen, D.; Coteus, P.; Gara, A.; Giampapa, M. E.; Heidelberger, P.; Singh, S.; Steinmacher-Burow, B. D.; Takken, T.; Tsao, M.; Vranas, P. (March 2005). "Blue Gene/L torus interconnection network" (https://web.archive.org/web/20110815102821/http://www.cc.gatech.edu/c lasses/AY2008/cs8803hpc_spring/papers/bgLtorusnetwork.pdf) (PDF). IBM Journal of Research and Development. 49 (2.3): 265–276. doi:10.1147/rd.492.0265 (https://doi.org/10.1147%2Frd.492.026

5) . Archived from the original (http://www.cc.gatech.edu/classes/AY2008/cs8803hpc_spring/paper s/bgLtorusnetwork.pdf) (PDF) on 2011-08-15.

13. Varadarajan, S. (14 March 2005). "Keynote I: "System X building the virginia tech supercomputer" ". Proceedings 13th International Conference on Computer Communications and Networks (IEEE Cat No 04EX969) ICCCN-04. p. 1. doi:10.1109/ICCCN.2004.1401570 (https://doi.org/10.1109%2FICCCN.2004. 1401570) . ISBN 978-0-7803-8814-7. ISSN 1095-2055 (https://www.worldcat.org/issn/1095-2055) .

14. Prickett Morgan, Timothy (22 November 2010). "IBM uncloaks 20 petaﬂops BlueGene/Q super" (http s://www.theregister.co.uk/2010/11/22/ibm_blue_gene_q_super/) . The Register.

15. "IBM Hot Water-Cooled Supercomputer Goes Live at ETH Zurich" (https://web.archive.org/web/201208 13212211/http://www.hpcwire.com/hpcwire/2010-07-02/ibm_hot_water-cooled_supercomputer_goes

_live_at_eth_zurich.html) . HPCwire. Zurich. 2 July 2010. Archived from the original (http://www.hpcwi re.com/hpcwire/2010-07-02/ibm_hot_water-cooled_supercomputer_goes_live_at_eth_zurich.html)

on 13 August 2012.

16. LaMonica, Martin (10 May 2010). "IBM liquid-cooled supercomputer heats building" (https://web.archiv e.org/web/20131101060256/http://news.cnet.com/8301-11128_3-20004543-54.html) . Green Tech. Cnet. Archived from the original (http://news.cnet.com/8301-11128_3-20004543-54.html) on 1 November 2013. Retrieved 5 February 2012.

17. Henderson, Harry (2008). "Supercomputer Architecture". Encyclopedia of Computer Science and Technology. p. 217. ISBN 978-0-8160-6382-6.

18. Prickett Morgan, Timothy (31 May 2010). "Top 500 supers – The Dawning of the GPUs" (https://www.t heregister.co.uk/2010/05/31/top_500_supers_jun2010/) . The Register.

19. Rainer Keller; David Kramer; Jan-Philipp Weiss (1 December 2010). Facing the Multicore-Challenge: Aspects of New Paradigms and Technologies in Parallel Computing (https://books.google.com/books?i d=-luqXPiew_UC&pg=PA118) . Springer. pp. 118–121. ISBN 978-3-642-16232-9. Retrieved 15 June 2012.

20. Poeter, Damon (11 October 2011). "Cray's Titan Supercomputer for ORNL could be world's fastest" (htt ps://www.pcmag.com/article2/0,2817,2394515,00.asp) . PC Magazine.

21. Feldman, Michael (11 October 2011). "GPUs Will Morph ORNL's Jaguar Into 20-Petaﬂop Titan" (http://w ww.hpcwire.com/hpcwire/2011-10-11/gpus_will_morph_ornl_s_jaguar_into_20-petaﬂop_titan.html) . HPC Wire.

22. Prickett Morgan, Timothy (11 October 2011). "Oak Ridge changes Jaguar's spots from CPUs to GPUs" (https://www.theregister.co.uk/2011/10/11/oak_ridge_cray_nvidia_titan/) . The Register.

23. Hai-Xiang Lin; Michael Alexander; Martti Forsell, eds. (2010). Euro-Par 2009 parallel processing workshops : HPPC, HeteroPar, PROPER, ROIA, UNICORE, VHPC, Delft, The Netherlands, August 25-28, 2009; workshops (Online-Ausg. ed.). Berlin: Springer. p. 345. ISBN 978-3-642-14121-8.

24. Reiner Dumke; René Braungarten; Günter Büren (3 December 2008). Software Process and Product Measurement: International Conferences, IWSM 2008, MetriKon 2008, and Mensura 2008, Munich, Germany, November 18-19, 2008 : Proceedings (https://books.google.com/books?id=5OiwaRX6g5Y C) . Springer. pp. 144–117. ISBN 978-3-540-89402-5. Retrieved 15 June 2012.

25. Frisch, Michael J. (December 1972). "Remarks on algorithm 352 [S22], algorithm 385 [S13], algorithm 392 [D3]" (https://doi.org/10.1145%2F361598.361914) . Communications of the ACM. 15 (12): 1074. doi:10.1145/361598.361914 (https://doi.org/10.1145%2F361598.361914) . S2CID 6571977 (https:// api.semanticscholar.org/CorpusID:6571977) .

26. El-Rewini, Hesham; Mostafa Abd-El-Barr (2005). Advanced computer architecture and parallel processing. Hoboken, NJ: Wiley-Interscience. pp. 77–80. ISBN 978-0-471-46740-3.

27. J. J. Dongarra; L. Grandinetti; J. Kowalik; G.R. Joubert (13 September 1995). High Performance Computing: Technology, Methods and Applications (https://books.google.com/books?id=iqSWDaSFNvk C&pg=PR4) . Elsevier. pp. 123–125. ISBN 978-0-444-82163-8. Retrieved 15 June 2012.

28. Greg Astfalk (1996). Applications on Advanced Architecture Computers (https://books.google.com/boo ks?id=43cfAvRSSAAC&pg=PR4) . SIAM. pp. 61–64. ISBN 978-0-89871-368-8. Retrieved 15 June 2012.

29. Jelica Protić; Milo Tomašević; Milo Tomasevic; Veljko Milutinović (1998). Distributed shared memory: concepts and systems (https://books.google.com/books?id=Jd1QAAAAMAAJ) . IEEE Computer Society Press. pp. ix–x. ISBN 978-0-8186-7737-3. Retrieved 15 June 2012.

30. Tomoya Enokido; Leonard Barolli; Makoto Takizawa, eds. (2007). Network-based information systems : ﬁrst international conference, NBiS 2007, Regensburg, Germany, September 3-7, 2007 : proceedings. Berlin: Springer. p. 375. ISBN 978-3-540-74572-3.

31. TOP500 list (https://web.archive.org/web/20120120015214/http://i.top500.org/sublist) To view all clusters on the TOP500 list select "cluster" as architecture from the "sublist menu" on the TOP500 site.

32. Yokokawa, M.; Shoji, Fumiyoshi; Uno, Atsuya; Kurokawa, Motoyoshi; Watanabe, Tadashi (22 August 2011). "The K computer: Japanese next-generation supercomputer development project". IEEE/ACM International Symposium on Low Power Electronics and Design. pp. 371–372. doi:10.1109/ISLPED.2011.5993668 (https://doi.org/10.1109%2FISLPED.2011.5993668) . ISBN 978-1- 61284-658-3. S2CID 13436840 (https://api.semanticscholar.org/CorpusID:13436840) .

33. Condon, J.H. and K.Thompson, "Belle Chess Hardware", In Advances in Computer Chess 3

(ed.M.R.B.Clarke), Pergamon Press, 1982.

34. Hsu, Feng-hsiung (2002). Behind Deep Blue: Building the Computer that Defeated the World Chess Champion. Princeton University Press. ISBN 978-0-691-09065-8.

35. Donninger, Chrilly; Ulf Lorenz (2004). "The Chess Monster Hydra". Field Programmable Logic and Application. Lecture Notes in Computer Science. Vol. 3203. pp. 927–932. doi:10.1007/978-3-540- 30117-2_101 (https://doi.org/10.1007%2F978-3-540-30117-2_101) . ISBN 978-3-540-22989-6. S2CID 5467762 (https://api.semanticscholar.org/CorpusID:5467762) .

36. Makino, Junichiro; Makoto Taiji (1998). Scientiﬁc simulations with special purpose computers : the GRAPE systems. Chichester [u.a.]: Wiley. ISBN 978-0-471-96946-4.

37. RIKEN press release, Completion of a one-petaﬂops computer system for simulation of molecular dynamics (http://www.riken.jp/engn/r-world/info/release/press/2006/060619/index.html) Archived (htt ps://web.archive.org/web/20121202053547/http://www.riken.jp/engn/r-world/info/release/press/2006/0 60619/index.html) 2012-12-02 at the Wayback Machine

38. Electronic Frontier Foundation (1998). Cracking DES – Secrets of Encryption Research, Wiretap Politics & Chip Design (https://archive.org/details/crackingdes00elec) . Oreilly & Associates Inc. ISBN 978-1- 56592-520-5.

39. Vega, Francisco Fernández de Vega (2010). Erick Cantú-Paz (ed.). Parallel and distributed computational intelligence (Online-Ausg. ed.). Berlin: Springer-Verlag. pp. 65–68. ISBN 978-3-642- 10674-3.

40. BOIN statistics, 2011 (http://www.boincstats.com/stats/project_graph.php?pr=bo) Archived (https:// web.archive.org/web/20100919090657/http://boincstats.com/stats/project_graph.php?pr=bo)

2010-09-19 at the Wayback Machine

41. Guang R. Gao, ed. (2010). Languages and compilers for parallel computing : 22nd international workshop, LCPC 2009, Newark, DE, USA, October 8-10, 2009, revised selected papers (1st ed.). Berlin: Springer. pp. 10–11. ISBN 978-3-642-13373-2.

42. Mario R. Guarracino, ed. (2011-06-24). Euro-par 2010, Parallel Processing Workshops Heteropar, Hpcc, Hibb, Coregrid, Uchpc, Hpcf, Proper, Ccpi, Vhpc, Iscia, Italy, August 31 - September 3, 2010. Berlin [u.a.]: Springer-Verlag New York Inc. pp. 274–277. ISBN 978-3-642-21877-4.

43. Kravtsov, Valentin; David Carmeli; Werner Dubitzky; Ariel Orda; Assaf Schuster; Benny Yoshpa (2007). "Quasi-opportunistic supercomputing in grids" (http://citeseer.ist.psu.edu/viewdoc/summary?doi=10. 1.1.135.8993) . IEEE International Symposium on High Performance Distributed Computing: 233–244.

44. Marian Bubak, ed. (2008). Computational science -- ICCS 2008 : 8th international conference, Krakow, Poland, June 23-25, 2008; proceedings (Online-Ausg. ed.). Berlin: Springer. pp. 112–113. ISBN 978-3- 540-69383-3.

45. Gabrielle Allen, ed. (2009). Computational science - ICCS 2009 : 9th international conference, Baton Rouge, LA, USA, May 25-27, 2009; proceedings. Berlin: Springer. pp. 387–388. ISBN 978-3-642-01969-2.

46. Cunha, José C. (2005). Euro-Par 2005 Parallel Processing. [New York]: Springer-Verlag Berlin/Heidelberg. pp. 560–567. ISBN 978-3-540-28700-1.

47. "IBM Triples Performance of World's Fastest, Most Energy-Eﬃcient Supercomputer" (http://www-03.ib m.com/press/us/en/pressrelease/21791.wss) . 2007-06-27. Retrieved 2011-12-24.

48. "The Green500 List" (https://web.archive.org/web/20160826075608/http://www.green500.org/) . Archived from the original (http://www.green500.org) on 2016-08-26. Retrieved 2020-02-13.

49. TOP500 list (http://i.top500.org/sublist) Archived (https://web.archive.org/web/20120120015214/h ttp://i.top500.org/sublist) 2012-01-20 at the Wayback Machine

50. Takumi Maruyama (2009). SPARC64(TM) VIIIfx: Fujitsu's New Generation Octo Core Processor for PETA Scale computing (http://img.jp.fujitsu.com/downloads/jp/jhpc/090825HotChips21.pdf) (PDF). Proceedings of Hot Chips 21. IEEE Computer Society.

51. "RIKEN Advanced Institute for Computational Science" (https://web.archive.org/web/2011072718414 2/http://www.riken.jp/engn/r-world/info/release/pamphlet/aics/pdf/2010_09.pdf) (PDF). RIKEN. Archived from the original (http://www.riken.jp/engn/r-world/info/release/pamphlet/aics/pdf/2010_0 9.pdf) (PDF) on 27 July 2011. Retrieved 20 June 2011.

52. Fujitsu Unveils Post-K SupercomputerHPC Wire Nov 7 2011 (http://www.hpcwire.com/hpcwire/2011-11

-07/fujitsu_unveils_post-k_supercomputer.html)

53. "MSN | Outlook, Oﬃce, Skype, Bing, Breaking News, and Latest Videos" (https://web.archive.org/web/2 0101007224921/http://www.msnbc.msn.com/id/39519135/ns/business-bloomberg_businesswee

k) . Archived from the original (https://www.msnbc.msn.com/id/39519135/ns/business-bloomberg_ businessweek/) on 2010-10-07.

54. "China ..." (https://www.theregister.co.uk/2010/10/28/china_tianhe_1a_supercomputer/) 28 October 2010.

55. "Top100 ..." (http://server.it168.com/a2010/1027/1118/000001118952.shtml) 28 October 2010.

56. "Tianhe-1A" (https://web.archive.org/web/20200420174415/https://www.top500.org/system/1058 7) . Archived from the original (http://top500.org/system/10587) on 2020-04-20. Retrieved

2012-02-05.

57. Thibodeau, Patrick (4 November 2010). "U.S. says China building 'entirely indigenous' supercomputer" (https://web.archive.org/web/20121011154327/http://www.computerworld.com/s/article/9194799/ U.S._says_China_building_entirely_indigenous_supercomputer_) . Computerworld. Archived from the original (http://www.computerworld.com/s/article/9194799/U.S._says_China_building_entirely_indige nous_supercomputer_) on 11 October 2012. Retrieved 5 February 2012.

58. The Register: IBM yanks chain on 'Blue Waters' super (https://www.theregister.co.uk/2011/08/08/ibm_ kills_blue_waters_super/)

59. "The Statesman IBM's Unix computer business is booming" (https://web.archive.org/web/2011080609 3332/http://www.statesman.com/business/ibms-unix-computer-business-is-booming-and-its-170129 8.html) . Archived from the original (http://www.statesman.com/business/ibms-unix-computer-busin ess-is-booming-and-its-1701298.html) on 2011-08-06. Retrieved 2012-02-05.

60. Niu, Yanwei; Ziang Hu; Kenneth Barner; Guang R. Gao (2005). "Performance Modelling and Optimization of Memory Access on Cellular Computer Architecture Cyclops64". Network and Parallel Computing. Lecture Notes in Computer Science. Vol. 3779. pp. 132–143. doi:10.1007/11577188_18 (h ttps://doi.org/10.1007%2F11577188_18) . ISBN 978-3-540-29810-6. {{cite book}}: |journal= ignored (help)

61. Tan, Guangming; Sreedhar, Vugranam C.; Gao, Guang R. (13 November 2009). "Analysis and performance results of computing betweenness centrality on IBM Cyclops64". The Journal of Supercomputing. 56 (1): 1–24. doi:10.1007/s11227-009-0339-9 (https://doi.org/10.1007%2Fs11227-0 09-0339-9) . S2CID 10976819 (https://api.semanticscholar.org/CorpusID:10976819) .

62. Hai Jin; Daniel A. Reed; Wenbin Jiang (2005). Network and Parallel Computing: IFIP International Conference, NPC 2005, Beijing, China, November 30 - December 3, 2005; Proceedings (https://books.goo gle.com/books?id=_kXVgF4_FlYC) . Birkhäuser. pp. 132–133. ISBN 978-3-540-29810-6. Retrieved

15 June 2012.