英伟达、英特尔、IBM、AMD等6家公司欲协助美国抢夺超算霸主地位

亿欧网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

【编者按】美国此前最快的计算机——泰坦，每秒钟能运行17590万亿次计算。其占地面积大约有一个篮球场大小，其使用的电力足以使一个小镇正常运转。而中国研发的“神威·太湖之光”计算机系统，是全球第一台运行速度超过10亿亿次/秒的超级计算机，峰值性能高达12.54亿亿次/秒，持续性能达到9.3亿亿次/秒，远在美国之上！

本文转载自nextplatform.com，作者：Nicole Hemsoth，编译：张易。亿欧编辑整理，供行业内人士参考。

6家公司参与研发美国百亿亿次超算系统，经费2.58亿美元

美国能源部（DoE）及与其合作的硬件供应商将得到近5亿美元的资金，致力于研究、开发和部署E级（百亿亿次）计算项目。美国能源部的ExascaleComputingProject（E级计算计划）及日前宣布的扩展项目PathForward促成了这一最新进展。

美国E级计算的未来发生了变化——其中有一些已经公布于众了，还有一些则尚且存疑（不过现在也有了一些最新消息，稍后介绍）。交付百亿亿次超级计算能力系统的时间表也发生了改变。最近多数预测都认为2021-2022年间会有“至少一个”系统问世。今天，这一规划得到了证实，美国能源部宣布将有6家和高性能计算相关的公司参与到下一代系统的研发中来。

尽管关于美国E级计算仍存有疑点，但有一件事情是肯定的：现在已经明确了哪些公司将会收到E级超算研发经费，它们将参与研发在实际应用中实现持续百亿亿次浮点计算性能的系统。 这6家供应商是英特尔、英伟达、Cray、IBM、AMD和惠普 ——且让我们对其中每一家供应商及它们目前以E级计算为导向的技术加深一些了解。

2021年至少交付一个E级计算系统

整体来说，在为期3年的合约期间，将有2.58亿美元资金用于这6家公司的PathForward项目上。没有迹象表明，这些资金在这6家中彩的公司里是平分的。R＆D资金的使用遵照于“工作包（workpackage）”的指导方针，获得经费的公司向美国能源部E级计算组（包括软件和应用开发者）提供报告，以便查验研发进展。据ArgonneNationalLab的PaulMessina说，“情况不会是我们花了钱，3年以后再看结果。”Messina是E级计算项目的负责人，将为PathForward项目组提供指导意见。

“这笔为期3年的2.58亿美元的资金将会得到补充，公司提供的额外资金至少将占到项目总成本的40％，总投资额至少会达到4.3亿美元。”总之，DoE正在依靠供应商，凭借用于最终产品的国家实验室经费，承担研发后生产成本。

作为惠普“TheMachine”架构的技术主管，PaoloFaraboschi表示：“这是一份旨在加速研发速度的合同。在PathForward项目后期，DoE期待的并非是产品。他们希望为项目加速，使其进入到生产准备就绪的状态。通常，这些项目的合作伙伴承担了40％的成本份额，所以DoE每投入10美元，合作公司预计会投入4美元，这样总额就是14美元。第二阶段是系统的采购，这不由DoE集中资助，而是由国家实验室出钱——他们有预算，有场地，对特定装配进行招标。在PathForward项目接近尾声时，参与项目的公司就直接进入到了产品化阶段。这样一来当采购建议书发布（RFP）时，这些公司就可以用匹配的技术去做回应了。第二阶段是一个不同的、大得多的资金池。

Messina解释说：“能源部计划至少交付两个系统——2021年至少有1个，之后或许还有两个或更多。这些系统将不由E级计算项目购买，而是安置在我们实验室的超算设施。”

Messina这段时间的话很值得关注，因为Argonne应该是基于英特尔的超级计算机站点，名为Aurora，其芯片是英特尔的XeonPhi。几周前，我们开始听到一些可信度很高的传闻，说Aurora可能会有一些架构或时间线上的变化。Messina确认了这一点，但没有给出真正的细节：“Aurora系统的潜在变化目前正处在审查阶段，这些变化将导致后续系统与原始系统处于不同的时间表。但由于这些都还处于早期沟通阶段，暂时还没有更具体的消息。“

供应商在这一项目中发挥至关重要的作用

作为E级计算项目的领导者，Messina需要一个能归入新型架构类别之中的超算架构，这是2021-2022年要实现的目标之一。正如我们在几周前所指出的那样，描述E级计算的用语最近已经从“新型（novel）”转向了比较乏味的“先进（advanced）”，从给出的研发资金列表可以看出，没有公司——除了惠普的“TheMachine”——能归入“新型”的门类。从最一开始强调新型体系结构的重要性时，我们就估计“TheMachine”是最贴近“新型”的要求的（意为可规模制造且可广泛编程）。现在我们的思路可能是对的，我们认识到唯一真正新型、有生产力的架构，可能是基于D-Wave系统的量子计算，而它并不在研发投资名单上。

在前端为研发注入资金对E级计算来说是好消息，但问题是，资金是否太少——更要命的是——来得是否太晚了？我们现在处于2017年中期。虽然这笔资金充裕，但如果需要三年的时间研发，另外再需要两年产品化，问题就来了。这就要等到2022年装配，再过一年才能全面量产。

而与此同时，在中国和日本，在应用和架构方面都有非常明确的极端规模化的规划路线图。这些国家将注意力集中于特定的应用程序，并围绕那些焦点中的焦点构建了架构。DoE已经制定了自己的超大规模路线图，但大型超级计算机项目的时间表也会随之改变，和该项目绑定的架构也是如此。例如，IBM终止了其基于Power7的BlueWaters系统；Cray几年前在国家超级计算应用中心赢得了一项交易，可以构建混合的CPU-GPU系统。

像2017年中一样，这次研发资金意味着，仍然缺少具有明确时间表的系统架构。这不是负面的评价。工作方式正在随着机器学习的引入而改变。（日本人以机器学习为核心，构建了为深度学习和传统模拟设计的下一代AI超级计算机）。

PathForward项目的资金将分给6家供应商，使他们有机会通过来自HPC应用和系统团队的良好指导，为他们下一代架构投入更多的资源。其中的风险不过是架构不合适，供应商系统开发所承担的负担比过去更多。

换个角度去理解这次研发投资。为了开发一些能够最终成为正确架构的东西，6家公司总共获得的资金达2.58亿美元。我们知道，今年英伟达花了30亿美元开发其“Volta”GPU。其他架构需要类似的数十亿美元规模的投资。不同于政府以往的投资（比如DARPA和DoE的投资），PathForward项目下产品的实际制造和发布工作将落在供应商身上。

“由PathForward资助的项目包括开发创新的内存架构，更高速的互连，改进的可靠性系统以及增加计算能力且不会不必要地增加能耗的方法。”Messina说。他表示“供应商在这一项目中将发挥至关重要的作用”。

背景：应对中国在高性能计算领域的挑战

根据《华尔街日报》的报道，美国政府正在努力应对中国和其他国家在下一代高性能计算领域对其发起的挑战。

在2016年由国家安全局和美国能源部召开的技术会议上，一些领导人提出警示：美国正面临将超级计算机领头羊的位置输给中国的危险。

美国此前最快的计算机——泰坦——由Cray开发，每秒钟能运行17590万亿次计算，相当于1160万台iPadPros同时运行。其占地面积大约有一个篮球场大小，其使用的电力足以使一个小镇正常运转。

2021年，美国计划交付至少一台“百亿亿次”超算系统，每秒能完成一百亿亿次计算。根据HyperionResearch的报告，中美两国都预计在2023年交付生产能力就绪的系统，能够在百亿亿次速度水平解决问题。

2016年6月，中国凭借“神威太湖之光”在一年中第二次占据了500台最快的科学计算机的榜首位置，标志了中国第一次在不使用美国半导体技术的情况下占据了排行榜首位。同时，中国也首次在所谓的Top500榜单上，以167比165的优势，比美国上榜了更多的计算机。在2016年11月的排行榜，中美各有171台机器上榜。

美国能源部的资金将由科技公司用来进一步研究和发展到超级计算机。例如，惠普上个月展示了一款名为TheMachine的新型内存驱动计算机的原型，该计算机将随着政府的额外资金而进一步发展。该系统是惠普在公司历史上最大的研发计划。该计算系统能够同时处理国会图书馆每本书中包含的数据五次，约1.6亿本书籍。

HyperionResearch估计，研究、开发和购买美国E级计算系统的价格将达到每个系统约3亿至5亿美元。橡树岭国家实验室花了约9700万美元从Cray购买了泰坦超级计算机。虽然美国政府通常是这些系统的第一个买家，但技术进步通常会以较低的价格流向其他计算机产品。