Intel 着手打造百亿亿次级超算 Aurora
Intel 今天宣布,它将和 Cray 公司一起为美国能源部的阿贡国家实验室建造第一台性能为 1 ExaFlops 的超级计算机,即每秒可执行百亿亿次浮点运算,比目前的最强超级计算机 Summit 快 5 倍以上,预计 2021 年交付。
Intel 表示,这台价值 5 亿美元的超级计算机名为 Aurora,专门为传统的高性能计算和人工智能设计,它的研制和使用将显著推进科学研究和发现。
实际上,这台 Aurora 已经是升级过的第二版方案,此前 Intel 原计划于 2018 年在阿贡国家实验室部署一台基于第三代 Knights Hill Xeon Phi 协处理器的超级计算机,峰值性能约 180 PetaFlops(每秒 18 亿亿次),但在中国宣布计划 2020 年前建立百亿亿次级超级计算机后,感受到来自东方神秘力量的 Intel 放弃了这一计划,将设计目标也提升至对位的百亿亿次级。
Aurora 是能源部百亿亿级计算项目的产物,该项目是 PathForward 长期计划中的一项拨款计划,旨在加速在美国开发百亿亿次级超级计算机的研究。从 2017 年开始,该项目在三年的合同期内分配了近 2.58 亿美元的资金,除 Intel 之外,AMD、Cray、HPE,IBM 和 NVIDIA 等公司均被要求提供至少 40%项目总成本的补充融资。
据雷锋网了解,自 NVIDIA DGX2 公布后,高性能计算界开始从纯粹追求高性能,转变为与 AI 寻求更好的结合,美国的 Summit 超级计算机也不例外。随着 Summit 重新夺回了中国占据多年的 TOP500 第一名,让采用 CPU+GPU 这种异构体系结构的超级计算机成为了绝对主流。
中科院计算机网络信息中心副主任研究员迟学斌曾提到,Summit 这台机器让人印象特别深刻的一点是它的实测效率高达 70% 以上,这在已有的异构系统里应该是最高的一台。要发展更高的百亿亿次级超级计算机的话,其他途径很难实现,只能使用异构体系结构。
Aurora 的设计计划自然将继续发扬这一体系,其核心是 Intel 下一代至强处理器、下一代 Xe GPU 以及下一代傲腾存储器的搭配,将采用 Cray 公司的 Shasta 超级计算系统及其 Slingshot 高性能互连,并完全支持 Intel 的 One API 开发工具,可将计算引擎映射到各种 CPU、GPU、FPGA 以及其他加速器。
阿贡国家实验室主任 Paul Kearns 表示,能源部、阿贡国家实验室、Intel 和 Cray 公司等行业合作伙伴的合作,对国家具有巨大的科学效益。Aurora 专为下一代人工智能而设计,通过结合高性能计算和人工智能,来解决诸如预测极端天气、大脑仿真、开发新材料等实际问题,从而加速科学发现,进一步了解宇宙。
雷锋网同时了解到,美国最近的大手笔不止 Aurora 一个。此前,美国能源部向 IBM、NVIDIA 等公司提供了 4.25 亿美元的联邦资金,用于建造两台超级计算机:一台位于能源部的橡树岭,另一台位于劳伦斯利弗莫尔国家实验室。根据 TOP500 超级计算机性能排名,位于橡树岭的超级计算机可实现 143~200 PetaFlops 的峰值性能,而位于劳伦斯利弗莫尔的红杉超级计算机峰值性能约为 20 PetaFlops。
然而,即便 Intel 和 Cray 实现自己的承诺,将 Aurora 打造成为美国超级计算机皇冠顶上的宝石,但它很可能仍然不是下一代超级计算机中最强大的一台。据悉,位于北京的中科院计算所(曙光超级计算机)、天津的国防科大超级计算机中心(天河超级计算机),以及济南的超级计算机济南中心(神威超级计算机)三个研发团队目前正在积极竞争,要在未来 7 个月内建造百亿亿次级超级计算机。
此外,日本的百亿亿次级超级计算机 " 后京 " 也计划于 2020 年完成部署,虽晚于中国但也要早于 Aurora。多方围剿之下,预计 2021 年完成部署的 Aurora 很有可能面临的是后发后至的局面。(要不然你再回炉一次?)
如今的超级计算机领域已经成为中国和美国之间的竞争舞台。目前世界上最快的 10 台超级计算机中有五台在美国,其中 Summit 和 Sierra 均基于 IBM 最新的 Power9 处理器和 NVIDIA Volta GV100 加速卡打造,峰值性能分别为 200 PetaFlops 和 126 PetaFlops,将占据 HPC TOP500 榜首多年的中国超级计算机神威太湖之光挤到了第三位。除此之外,其他三台还包括第六名的 Trinity、第九名的 Titan 和第十名的 Sequoia。
TOP500 榜单目前的前十名
位于中国无锡国家超级计算中心的神威太湖之光是目前我国最强的超级计算机,基于自主研发的申威 SW26010 处理器,峰值性能 125 PetaFlops,曾在 2015~2017 年蝉联 TOP500 冠军。紧随神威太湖之光之后的是排名第四的天河 2A,峰值性能 100 PetaFlops。
在两年前的 TOP500 排名中,中国以 202 台的超级计算机数量首次超过美国的 143 台,且这一趋势在随后的一年里还有所加速。至 2018 年秋季 TOP500 出炉时,中国上榜的超级计算机总数再次攀升到 229 台,而美国则进一步下降到 108 台。
不过,中国虽然在高性能计算领域的硬件上已经实现了超车,但在软件和应用层面上一直与国外有不小的差距,且这种差距并非依靠资金投入便能实现追赶,而是要持续不断的慢慢积淀。
以目前的最强超算 Summit 为例,刚刚投入使用后不久,在去年的全球超级计算大会上便已有一些非常完美的应用展示了出来,例如由美国加州理工大学和国家实验室设计的项目,使用传统科学计算和 AI 计算相结合来预测地震的应用,整体计算使用了传统科学计算中的有限元,而在单点破坏严重的地方则使用了测量数据加 AI 推理,两者结合之下将 Summit 这台机器应用到了完美,并据此得到了戈登 · 贝尔奖。
中科曙光副总裁何铁宁在参观了这些展示后表示,这些应用最值得学习的地方是如何让传统科学计算和 AI 计算这两者有机的结合起来,实现比较完美的负载均衡完全匹配。
据悉,国内几大超级计算中心现在也正向这一模式靠拢,在软件上的投入逐渐增加,努力完善生态体系。今年将会有更多的投入在生态建设上,让即将到来的三大百亿亿次级超算发挥出更强大的威力。
【来源:雷锋网】