把亚马逊云服务器玩成超级计算机

创见网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  


如果你和你的实验室实在是买不起超级计算机,但是又需要 petaflop 级别的计算机运算能力的话,你可以考虑一下花 3.3 万美元租 156314 个亚马逊云主机的处理器核心来用上它 18 个小时。

在过去数年里,HPC(高性能计算机)软件企业 Cycle Computing 已经开始帮助研究人员组合亚马逊云主机(AWS,又称亚马逊网络服务),为他们在短时间内获得超高的计算机性能来玩成大规模的计算任务。近日,Cycle 公司真的玩大了,它从亚马逊那里租用了 156314 个处理器核心,连续运行了 18 个小时,期间峰值计算速度达到了 1.21 petaflops(1petaflops=每秒千万亿次浮点运算,天河I号的计算能力为2.6 petaflops)。

为了能得到这么多 cpu 核心数,Cycle 同时从亚马逊全球的数据中心(美国 3 处、爱尔兰、新加坡、东京、悉尼和圣保罗)同时租用了云主机。经过 18 个小时的使用,亚马逊开出的账单仅为 3.3 万美元(约合 20.5 万人民币)。使用这些云主机的是南加州大学的化学教授 Mark Thompson,他在此期间利用了这些设备计算太阳能转换效率最高的金属分子材料。

Cycle Computing 公司总裁 Jason Stowe 说:“无论是什么材料,从计算、合成到提纯,然后分析数据,要花费一个研究生一年的时间,而且仅仅一种分子所需要设备、材料、人工成本就超过数十万美元。”

为了避免高成本的实验,Thompson 使用了一款模拟软件来模拟真实实验。在这 18 个小时里,Thompson 模拟了 20.5 万种分子材料的实验,相当于人工操作 230 万小时。虽然实验才刚刚结束,结果未出来之前并不会对太阳能行业产生重大影响,但是从这次实验所采取的方法来说,是很有开创性的。

虽然说峰值达到了 1.21 petaflops,但是实际的过程中并不能每分每秒都达到峰值。测算超级计算机速度的时候并非选择峰值,而是选择实际使用的数值。Cycle 的亚马逊云主机机群因为分布在全球各地,相互之间的数据沟通肯定会有延迟,性能也可能比峰值低。IBM、Cray 等公司生产的超级计算机在协同作业的时候数据联络非常快,所有计算机核心都在一个地区,延迟相对就少。所以 Cycle 公司针对的就是那种对设备联系要求不高的任务。

Stowe 说:“峰值不峰值的,其实并不重要。最重要的是,我们充分利用了这 1.2 petaflops 的计算能力。或许未来会出现针对大数据分析的浮点运算新规则也说不定。”

在最近的超级计算机 Top 500 名单中,亚马逊的超级计算机排名为 127,速度为 240.1 teraflops,峰值 354.1 teraflops,仅有 Cycle 租用的机群计算能力的 1/3。Cycle公司组建的云超级计算机的性能居然超过了亚马逊本家的超级计算机。

如何组建?

Cycle 的机群拥有 156314 个计算核心,分布在 16788 万台云主机上,也就是说,他们租用的亚马逊云主机平均每台有 9.3 个计算核心。

为了降低成本,Cycle 租用的设备大部分都通过亚马逊的竞拍市场获得,所以有的是 8 核的有的是 16 核的,也有的是 32 核的。

“为了部署机群,Cycle 的软件自动竞标、获取、测试、组装成了这么一个超级计算机,然后将计算数据分发到各台云主机上。”

Cycle 还使用了自主研发的 Jupiter 任务分发系统来分配任务,它可以跨区域、跨数据中心来分配、协调任务,即便在运行中有的虚拟主机崩溃了,它的任务还可以分配给其他主机来完成。

作为首个实验项目,Cycle 并没有向 Thompson 的实验团队收取除了设备租用费用之外的其他费用,而且还给了大学研究折扣。其他研究团队也可以享受这种待遇。

来源: ArsTechnica

标签: 云计算 超级计算机 亚马逊 研究

随意打赏

提交建议
微信扫一扫,分享给好友吧。