访中科曙光智能计算技术总监许涛：重新认识面向未来的AI服务器和云计算中心

雷锋网 • 6年前扫码分享

雷锋网消息，2018年11月20日，NVIDIA在苏州召开了GTC China 2018大会。与会者对这场技术大会的期待不仅在于NVIDIA本身，对于其产品和技术在国内的具体应用也倍加关注。

在本次大会上，国内高性能计算领军企业中科曙光推出了全新的XMachine系列AI服务器，基于Intel Skylake CPU，最多可通过NVLink支持8块NVIDIA GPU、10卡训练GPU、20卡推理加速卡。底板采用CPU主板和GPU解耦合设计，可根据CPU和GPU的发展各自独立升级，降低用户更新换代成本。

发布会后，雷锋网 (公众号：雷锋网) 与中科曙光智能计算技术总监许涛进行了深入的交流对话，获悉中科曙光在产品和市场上的一些思考。

重新认识高性能AI服务器

对于大多数人来说，高性能计算（HPC）产品和传统的服务器似乎没什么区别，都象征着“专业级”、“企业级”等高大上的定位。不过在谈话中我们了解到，以高算力为需求的产品，已经从传统服务器中独立出来了，其设计方式和传统服务器有很大不同。

访中科曙光智能计算技术总监许涛：重新认识面向未来的AI服务器和云计算中心

许涛向雷锋网介绍，二者首要的区别在于传统服务器的功耗密度相对较低，而AI服务器等高性能计算产品的功耗非常高，目前发售的AI服务器额定功率已达到3200瓦，下一代HGX产品给出的参考功率更是高达单台10千瓦，远远超过传统机架式和刀片式服务器。而功耗高也带来了发热量大的新挑战，这是AI服务器和传统的服务器最大的区别。

设计AI服务器时，供电和散热是需要重点考虑的问题，相应的对兼容性和稳定性的要求也都不太一样。在GPU加速卡刚出现的时候，单卡功耗不超过250瓦，而现在已经达到300瓦，按照目前的趋势，加速卡功耗还会随着时间推移变得更高，当单块加速卡功耗达到350瓦以上的时候，传统的服务器结构就很难满足了。

“在这么高的压力下，单个机柜里能摆放的服务器数量是非常有限的。”许涛给我们算了笔账，“3200瓦的AI服务器，一般的电信机房单柜只能放2台，即便是20千瓦容量的高端水冷机房也只能放6台。综合考虑实际部署情况之后，我们发现4U是非常合理的AI服务器尺寸。XMachine的GPU仓高度为3U，不仅散热空间大，也为未来的维护预留了很大的空间。”

而对于个人工作站，中科曙光在最新的W560-G30产品上也采用了改进设计的3段式散热方案：

GPU区域：RTX6000显卡功耗达300瓦，拥有专门的散热空间，并且使用IPMI功能精准读取显卡状态状况并管理显卡功耗和风扇散热，控制相应的风扇风量，在保证显卡散热的同时将办公环境下的噪音压缩至最低，最高可支持2块显卡全速运转。

CPU区域：支持2颗共56个物理核心的至强铂金CPU，每颗CPU的功耗达205瓦；2颗CPU风道互相隔离，每颗CPU均有独立进风，保证CPU在高功耗下稳定工作，并可支撑进一步的超频空间。

电源区域：使用可7*24小时稳定提供1250瓦供电能力的铂金电源，并设计有电源的独立风道；时在放置于数据中心使用时，可支持冗余电源和基于BMC的远程管理功能，变身成为高性能GPU服务器。

访中科曙光智能计算技术总监许涛：重新认识面向未来的AI服务器和云计算中心

灵活应对百花齐放的推理端市场

随着异构计算越来越流行，现在HPC Top 500里排名靠前的超高算力服务器基本上都用到了GPU加速卡或者其他加速部件。据雷锋网了解，目前NVIDIA已经基本垄断了AI计算的训练端市场，但在与用户应用贴合特别紧密的推理端，由于需要进行具体的应用部署，GPU作为一种通用计算单元的优势就会被削弱。

NVIDIA虽然面向推理端市场发布了T4计算卡，但是像Intel、赛灵思和寒武纪等公司，依然在积极开拓这一领域。根据介绍，XMachine系列AI服务器在设计上可以兼容多种加速器产品，这些芯片在市场中是互补的，中科曙光未来会针对不同应用场合推出使用不同加速芯片的服务器，就看终端用户的诉求是什么。

“在文字处理或信息导流等业务中，传统CPU的运算效率也很好；如果是需要捕捉黄金窗口期的商业化公司，那么NVIDIA T4这样的GPU加速产品可以让公司迅速上线项目。” 许涛为我们详细分析着几种不同的情况，“而对那些拥有特殊业务需求的定制化客户来说，他们需要经常迅速改换业务逻辑，这种情况下显然FPGA更适合。”

随后，许涛特别提到了寒武纪科技今年5月3日发布的首款云端智能芯片MLU100及对应的云端AI计算卡，并纠正了我们对国产AI芯片的一些认识误区。他表示，寒武纪MLU100芯片与NVIDIA P4/T4加速卡的设计理念大相径庭，二者在计算能力上并不能直接进行对比。

“寒武纪MLU100芯片所使用的AI框架和技术非常专一，可以快速实现CNN、RNN等各种各样的卷积过程，达到非常好效果，在特定的推理市场上给用户提供更好的加速。如果是与应用贴合非常紧密的研究型用户，寒武纪MLU100芯片可以在其特定环境下将算力发挥到极致。”