DSA架构的AI推理芯片完胜GPU?
英伟达GPU在AI领域的成功引来了大量的挑战者。在国外,云端芯片初创公司几乎都采用DSA(Domain Specific Architecture,领域专用架构)挑战英伟达,比如已经被英特尔收购的Habana Labs。在国内,也有多家初创公司用GPGPU的架构研发AI云端芯片。
“用相同的架构竞争,专利就是一个问题。DSA是不同的道路,特别在云端AI推理方面,DSA可以完胜GPU。” 瀚博半导体创始人兼CEO钱军解释了创业前的技术路线思考。
雷锋网 此前的文章 介绍过,钱军有25年以上高端芯片设计经验,离职前在AMD任Senior Director,全面负责GPU(图像处理器)和AI服务器芯片设计和生产,现在市场上的AMD Radeon图像处理器和AI服务器芯片都是由其带队开发。
瀚博半导体创始人兼CEO钱军
瀚博的另一个创始人,也是CTO和总架构师的张磊有23年以上芯片和IP架构设计的丰富经验,2013年晋升为AMD Fellow,负责AI、深度学习,视频编解码和视频处理领域。
外界不少人误以为有多款GPU成功经验的两位创始人会选择用GPU挑战英伟达,但瀚博在2021世界人工智能大会(WAIC 2021)开幕前夕发布的首款产品SV102云端推理芯片采用的是DSA架构,而这款AI芯片获取客户的秘诀是TCO(Total Cost of Ownership,总体拥有成本)。
GPU不是云端推理最好的架构
初创公司要与巨头竞争,差异化是必然的选择。对于芯片公司而言,市场规模和技术路线是关键的考量因素。就云端芯片而言,随着AI模型的成熟,市场对云端AI训练需求的增速会降低,云端AI推理的市场规模将会迅速增加。有数据显示,2021年云端推理芯片市场已经大于训练市场。
云端AI芯片市场的变化是挑战英伟达的一个好机会。根据MLPerf此前发布的基准测试,英伟达在训练测试中一直保持着较高的水平,但在推理测试中,GPU并不如其在训练中的表现那么亮眼。
本月初,英国初创公司Graphcore的IPU首度公开MLPerf基准测结果,结果显示在Inference v1.0基准测试下,IPU相比GPU有1倍多的性价比收益。
“GPU在推理侧不是最好的架构,我们更好的DSA架构,能够在云端推理市场完胜GPU。”钱军表示。
但即便如此,能够定义和推出客户愿意买单的AI推理芯片才能够挑战英伟达。钱军分享了他的一些思考。他表示,计算机视觉占了AI市场的大半壁江山,视频流又占近70%的数据流,未来视频相关的数据只会越来越多,因此基于视频的AI应用首先要有强大的解码能力。
钱军认为,AI芯片视频处理能力可以用三个指标去衡量,包括延迟、吞吐量和能效。
当然,芯片的性能也是核心指标,同时,对于各种数据类型和AI模型的支持也是吸引客户的关键。钱军介绍,“我们的产品对于支持主流AI模型很全面,芯片设计也有前瞻性,支持计算机视觉、自然语言处理、搜索推荐、智能视频处理领域的众多常用神经网络,软件栈支持灵活扩展,支持用户自定义算子。”
云端推理DSA架构芯片完胜GPU
英伟达的众多挑战者中,有底气说出完胜的公司并不多。 雷锋网 (公众号:雷锋网) 了解到,瀚博的首款芯片研发周期大概是两年半,这也是业界高性能芯片普遍的研发周期。 2018年底瀚博半导体创立之后,瀚博的团队就开始自主IP的研发,到了今年6月份,首款芯片SV102测试成功。
“SV102开始测试后的8分钟就全部点亮,也就是通过PCIe就能看到所有功能模块,在30多个小时内,所有模块基础测试都提前完成。”钱军说,“这对于一个全新设计的高端芯片是一个奇迹。”
虽然钱军没有具体介绍瀚博的DSA架构,不过CTO张磊用一组数据展示了瀚博首款产品相比GPU的竞争优势。
瀚博SV102是面向云端高性能推理的AI芯片,强调AI推理、视频处理以及可扩展性三大能力。AI推理性能表现在高效、高能耗比和低延时三方面,具体而言,SV102在Int8精度下的峰值性能为200TOPS,在75功耗下,吞吐率是GPU的2-10倍,延时更是不到GPU的5%。
瀚博半导体创始人兼CTO张磊
张磊介绍,SV102采用的是单宽半高半长的设计,存储最高支持32GB,接口是16个PCIe Gen4,采用被动散热的方式。之所以单独给出Int8的性能数据是因为最新和主流云端推理GPU都只用了Int8做推理基准测试,SV102也支持FP16和BF16的数据类型。
从给出的数据可以看到,在ResNet50和BERT两个模型下,瀚博SV102对比英伟达最新的A10和主流的T4有2-10倍的性能优势。
视频处理则是瀚博AI芯片的一大特色。“ 国内外已经推出的云端AI推理芯片几乎都没有内置视频解码功能,如果客户需要做视频解码,就需要用单独的芯片进行解码。 SV102就支持64路以上H.264、H.265或AVS2 1080P解码,支持8K分辨率。”张磊表示。
由此带来的是TCO的优势,这里的TCO主要包含服务器+AI芯片+芯片功耗+运营成本。 张磊给出的测算是,基于SV102的性能、功耗以及尺寸的特性,相比T4的服务器可以节省60%以上的TCO,对比A10的服务器也可以节省50%的成本。在高密度视频处理场景,瀚博给出的数据也显示出其性能和价格的优势。
赢得互联网客户
即便从产品性能层面瀚博有完胜GPU的信心,但客户的认可才是最终的成功。所以,首要问题就是客户的迁移成本。张磊告诉雷锋网:“从AI推理的角度看,迁移到我们的AI芯片上的成本比较小。对于那些有自己算法的客户,迁移的成本也是很小的一部分。 更重要的是要让客户看到TCO的巨大节省,这样对于客户来说才能具有足够的吸引力,应用落地也会非常快。 ”
钱军补充表示:“一定要理解客户的需求,然后针对需求投入精力。”
对于瀚博来说,就是尽快完善软件和生态的建设。瀚博的VastStream软件平台支持TensorFlow、 PyTorch、Caffe2等常见的深度学习框架模型与ONNX格式的模型,借助高度定制的AI编译器可以充分优化模型的执行效率。
钱军介绍,“我们在互联网侧的落地速度更快一些,现已与国内外多家头部互联网公司合作。同时,我们还在大力增加软件团队,未来软件人员的数量会是硬件团队规模的3-5倍。”
虽然钱军没有透露具体的合作客户,不过快手作为瀚博的A轮投资人,双方应该在业务上更容易达成合作。但无论如何,瀚博的首款芯片的大规模落地还有一段距离。
“瀚博今年的产能已经确定,明年大部分的产能也已经提前预知。”钱军透露。
小结
今年四月份第一次和钱军深度对话的时候,对于其产品钱军仅仅透露了技术路线的选择。在首款产品流片和完成测试之后,瀚博对外透露了有限的产品信息,但核心的架构以及内置多路视频解码能力的特性并未公布更多消息,雷锋网认为这些才是瀚博最核心的竞争力。
当然,对于互联网客户以及行业客户而言,TCO以及易用程度才是更直接的考量因素。瀚博能否用TCO打动足够多的客户,仍需观察。但同样值得关注的是,在瀚博的产品规划里,有15瓦到150瓦的硬件产品,覆盖边缘和云端。
。