极客梦:百万美元超级计算机 Cray CS-Storm
想象一套安装在48U机柜、拥有22个2U服务器的系统,它运行在176块 NVIDIA Tesla K40 GPU 芯片上,单机柜系统能够实现惊人的每秒250万亿次浮点运算。我们正在谈论的是令人尖叫的超级计算机,而这正是 Cray 公司在其最新高性能系统Cray CS-Storm中提供的东西。
想想看,四机柜Cray CS-Storm系统的峰值性能可以实现每秒1,000万亿次浮点运算,真的是非常强大的系统。
而且,Cray CS-Storm诞生在这样一种时候,你可以用一张信用卡从亚马逊网络服务(AWS)这样的IaaS提供商或小型PC厂商那里购买到廉价的计算能力。不过,Cray并非尝试在那块市场展开竞争,该公司一如既往坚守在高性能计算市场,这块市场的客户需要系统以全功率全天候运行,而这正是Cray提供的东西,该公司的市场营销和业务开发副总裁巴里·博尔丁(Barry Bolding)如是说。
他指出,这些机器不是为心脏不好的人准备的。为了让Cray CS-Storm的高成本显得值当——博尔丁指出,整套设备需要近100万美元——你需要拥有特定的需求,而且你需要让它们竭尽全力运行,几乎就是全天候。当他说全功率时,他可不是说笑。
“NVIDIA Tesla K40芯片在做最大计算时的功率是300瓦。”博尔丁解释道。而CS-Storm就被设计始终以300瓦的最高功率运行,他这样告诉我。这意味着,CS-Storm每时每刻都能提供全功率性能。
至于CS-Storm的成本为何如此之高,你需要了解的是,一块NVIDIA Tesla K40芯片的成本就在4,000美元左右。正如博尔丁所说的,好好算一下吧。系统每个节点的容量是8块,而一台机柜的总容量是176块。如果你购买整套的四机柜CS-Storm系统,那就是超过700块芯片。你在这里花钱买的都是实实在在的计算能力。
博尔丁表示,该系统的硬件构建在Cray CS300风冷系统之上,而软件则包括用于资源规划和调度的Cray Advanced Cluster Engine集群管理软件,以及在Cray平台开发应用的完整Cray Programming Environment,另外还有一个配合其他软件的系统集成层。更重要的是,如果客户不需要,他们就不必花全价购买顶配的超级系统。他们可以根据自己的需求和预算购买5台或10台相应配置的服务器,从而节省一部分开支。
博尔丁表示,CS-Storm被设计从事需要高强度计算的专业工作,比如全球范围内的天气预测、用于石油勘探的地震测量、金融分析或是碰撞模拟。所有这些作业都需要系统稳定执行数千个并行计算,你无法将其分解成单一任务。而且,这种计算强度是持续的,并非只有很短的时间。
这就是为什么云计算服务在这些用例中并不符合成本效益。尽管云计算服务对短期容量提升甚或稳步缩放规模都是有利的,但当你需要不间断的高强度计算能力时,超级计算机才是你的选择。博尔丁解释说,Cray使用了最高品质的零部件来打造这套系统,它们就是被设计以最高功率全天候运行的。
他声称,对这种计算能力有需求的公司可以让钱花得值,因为他们从其他解决方案那里无法得到Cray实现的那种工程效率。博尔丁夸耀Cray使用了最高品质的零部件,并且拥有最高品质的信号质量,这样所有零部件就能够以硬件允许的最大性能协同工作。
如果你有这种需求,你就能花钱买实在,然后开始工作。如果没有,那你可以跟我们其他人一样,坐下来垂涎三尺,做一把极客梦。
图片来源: CRAY (图片经过修改)(翻译:王灿均)
Geek Dreams: Cray CS-Storm Delivers High-Performance Computing In Million-Dollar Package