腾讯投资的AI芯片公司仅20个月打造的云端训练芯片如何?
AI技术正成为巨头们保持领先地位的关键之一,各领域的头部公司特别是科技巨头们,大都花费重金投资AI,但他们很快就遇到一个问题,芯片的算力无法满足AI算法的需求。因此,国外的谷歌、亚马逊,国内的百度、阿里都纷纷开始自主研发AI芯片。
值得注意的是,根据公开资料,腾讯投资针对AI芯片的投资直到去年八月才曝光,当时燧原科技宣布获得腾讯领投的Pre-A轮3.4亿元人民币投资。本周三,燧原科技发布首款云端训练芯片邃思DTU,这款芯片从启动研发到发布量产仅耗时20个月,基于该芯片云燧T10加速卡单卡单精度算力达到20 TFLOPS,堪称业界最强。
不过,燧原科技首款芯片及加速卡云燧T10的发布只是其创业成功的起点。
燧原科技 CEO 赵立东
挑战AI云端芯片市场的勇气
纵观如今的芯片市场,成功的芯片公司背后都有一个极其强大的生态,特别是在高性能计算领域,生态的重要性更加明显。因此,即便新一轮的AI热潮引发了芯片行业鲜见的创业潮,但大都选择了边缘AI芯片,这是因为其相比云端AI芯片技术难度更低,也可以避开云端AI芯片垄断的市场格局。
燧原科技显然是少有的云端AI芯片创业公司。 对于为何敢于挑战云端AI芯片,燧原科技 CEO 赵立东在发布会上表示,我们的信心源自天时、地利、人和。 天时是CPU、GPU生态成熟,切入困难,但深度学习爆发式发展仅有7年的时间,这是一个更加开放的战场,有更大的发展空间。地利是现在是做AI高端芯片的黄金时代,中国有广泛应用、人口红利、海量数据、市场机会,既有国家政策引领,也有资本给予支持。人和则是上海近20年在集成电路领域储备了大量的集成电路人才,同时,上海通过在AI领域的发展,可提供成熟算法、软件、架构人才,这也是燧原科技选择上海的重要原因。
对此问题,燧原科技创始人兼 COO 张亚林接受雷锋网采访时补充表示,燧原做芯片高举高打是我们CEO定下来的,这其中包含了我们的家国情怀,也是希望够做一件对得起选择创业这个决定的事情。 AI发展一个很大的挑战是模型不够,但新的模型都掌握在国外大公司手中,比如谷歌,其中很关键的是它们有TPU。我们希望能够提供更强的算力,让中国人也拥有更多的AI模型。
燧原科技创始人兼 COO 张亚林
不容忽视的是,两位重要创始人的经历也十分关键。CEO赵立东本科毕业于清华大学电子工程系,后又获得美国犹他州立大学电子与计算机系硕士学位。2007年加入AMD,历任计算事业部高级总监、产品工程部高级总监,负责CPU/GPU/APU及多个相关核心IP的研发,团队规模超过千人,并参与成立中国研发中心。
COO张亚林也曾是AMD的一员,他本科毕业于复旦大学电子工程系,比赵立东晚一年(2008)加入AMD,历任资深芯片经理、技术总监,曾在AMD上海研发中心领导开发并量产微软XBOX-ONE系列主芯片、融合芯片APU等多款世界级芯片。
2014年,赵立东离开了AMD加入了紫光通信科技集团任副总裁,2015年3月兼任紫光集团旗下锐迪科微电子公司总裁,2017年3月任紫光集团副总裁。而张亚林直到决定和赵立东一起创业才选择离开AMD。
雷锋网 (公众号:雷锋网) 认为,两位核心创始成员都是技术背景出生,都在AMD积累了丰富的经验,这让他们不仅能够判断市场对于AI芯片的需求,也有自信敢去挑战AI云端芯片。
首款云端AI加速卡单精度性能全球最高
目前看来,燧原科技在融资和产品上都十分顺利。燧原科技2018年3月19日在上海注册成立,1个月后就完成了2400万人民币种子轮融资,并启动第一颗云端训练芯片的研发。同年7月,完成腾讯战略领投的3.4亿人民币Pre-A轮融资。
就算在资本的寒冬,今年5月,燧原科技又获得了红点创投中国基金领投的3亿元人民币A轮融资。同月还有一个好消息,首款芯片按计划准时流片。
从2018年4月开始研发到2019年9月芯片点亮开始软硬件联调,燧原科技仅用了14个月的时间,加上产品的正式发布并开始量产,也仅用了20个月。
之所以说是仅用,是因为一款大型CPU和GPU从设计到量产通常需要三年甚至更长时间。 燧原科技之所以能快速完成一款复杂芯片从设计到量产,其团队有大量处理器专家是重要原因。张亚林透露,我们团队现在有207人,其中很多人从2000年就开始设计处理器,经验非常丰富。但能够快速实现芯片从设计到量产还因为团队文化非常同步,大家的目标都是尽快落地和量产,每个设计指标把控的都很严格。
张亚林认为,能够这么快推出云端训练芯片简直就是奇迹,因为这款芯片是从零开始设计。
“邃思DTU的架构有非常大的创新,我们最核心处理器里的架构都是我们从无到有设计的,并且受到专利保护。” 张亚林介绍。
另外,邃思DTU基于可重构芯片的设计理念,其计算核心包含32个通用可扩展神经元处理器(SIP),每8个SIP组合成1个可扩展智能计算群(SIC)。SIC之间通过HBM实现高速互联,通过片上调度算法,数据在搬迁中完成计算,实现SIP利用率最大化。
“端上的可重构更多是低功耗以及可以轻易移植应用。云端的可重构主要的是把整个数学计算变成一种可编程的指令集和可控的流水线,让数学计算的模型可以重构,这样可以保证芯片的通用性,也能够适应快速迭代的AI算法。”张亚林进一步解释。
最终,燧原科技选择基于格罗方德12nm FinFET工艺打造邃思DTU,集成141亿个晶体管,芯片面积为480平方毫米,采用先进的2.5D封装。基于邃思DTU的云燧T10也表现不俗:
-
超强算力:单精度(FP32)下算力20TFLOPS;半精度及混合精度(BF16/FP16)下算力80TFLOPS,而最大功耗仅为225W,能效比领先;
-
模型通用:支持CNN、RNN、LSTM、BERT等常用人工训练模型,可用于图像、流数据、语音等训练场景;
-
高速互联:采用燧原ESL互联技术,满足E级数据中心规模部署需求;
-
接口兼容:标准PCIe接口,广泛兼容主流AI服务器;
-
生态开放:支持主流深度学习框架,通过SDK提供深度定制。
张亚林强调,为应对云端数据中心大规模训练集群的挑战,我们创造性地提出200GB双向ESL互联技术,在1024节点集群规模下,训练线性度加速比达86%。在相同互联带宽下,相比InfiniBand组网,能较大幅度降低组网的复杂度和成本。云燧T10将于2020年第一季度上市。
云燧T10的性能是一个什么样的水平?做一个简单的对比,友商同级别最新旗舰单卡的单精度算力为 16.4TFLOPS,云燧T10单卡单精度算力为20TFLOPS。友商旗舰的功耗是250W,云燧T10的最大功耗为225W。ResNeT-50模型的Benchmark无论是FPS还是FPS/W 云燧T10表现都比友商旗舰表现更好。
更小的芯片面积可以实现更成本,加上更高的高每瓦算力让云燧T10可以达到更高的有效算力,这也是业界越来越关注地衡量AI芯片的指标。
市场策略关乎成败
更高的有效算力确实能够吸引客户,但想要打动用户易用性和迁移成本同样关键。在产品层面,燧原科技发布硬件产品的同时也发布软件平台驭算,目前已经完全支持 TensorFlow,明年上半年将实现对 PyTorch、MXNet、ONNX 等主流深度学习框架提供支持,提供完整的编译、调试、调优工具链,并在硬件层开放SDK,为深度开发者提供细粒度算力编程接口。
赵立东接受采访时表示,我们搭建一个最基础的,支持TensorFlow的堆栈,但要提供完整、易用、友好的界面和工具,不是一朝一夕可以做到的,需要更长的时间。
在持续完善软件平台的同时,为了能实现无缝迁移燧原科技也有自己的方法。赵立东称之为热启动,也就是在产品研发的过程中,就与业界合作伙伴进行技术交流和项目合作,将市场的需求融合到产品的开发过程。这样可以让产品更快在实际场景中落地。
张亚林表示,我们和客户做有限接触的时候,先是去适配他们主要的模型和业务形态,从他们的业务模型中进行泛化和抽取,通过交流我们获得了不少信息,然后再去适配,这样客户就能够很容易地进行迁移。
但对于燧原科技这样一家初创公司而言,在精力有限以及面对强大竞争对手的时候,策略以及合作伙伴的选择至关重要。燧原科技选择的初期客户都是现有产品能够很好支持的合作伙伴。
赵立东介绍,目前我们已经与腾讯针对通用人工智能应用场景的项目开展密切的合作,未来也将会扩展到更多AI应用场景。
据悉,燧原还将面向云服务公司、传统领域的行业服务公司、AI超算中心和智慧城市选择合作伙伴。 赵立东表示,三个方向都在谈可能的合作伙伴,我们希望与合作伙伴不是纯粹的供应商和客户的关系,而是能够一起进行深入合作,为他们做一些深度定制。我们希望能够以点实现破冰的突破,然后由一个点变成多个点,由点连成线,再由线形成面,逐渐扩大。
深度定制也正是燧原科技进入云端AI芯片市场的策略。赵立东表示:“在垄断市场,所有客户都希望有新的选择,这样他们才能稍有议价能力,因此市场有这样的痛点。除此之外,他们还希望有更高的性价比和能效比,特别是在落地的场景可以实现的有效性能。”
“科技公司们想要在竞争中不一样,取得更好的成绩就需要做差异化。但是在垄断市场,想要得到的技术支持将会非常有限,这也会限制差异化的实现。所以我们希望和客户深度定制合作,帮客户实现差异化。”赵立东进一步表示。
但随着AI模型的成熟,市场对云端AI训练需求的增速将会降低,云端AI推理的市场规模将会迅速增加,并有望在2022年超过训练市场。对此,赵立东表示,云端AI训练的需求不会降低,因为还有很多公司因为价格的原因还没有机会进来,这也是我们首先推出的是云端训练芯片的原因,这是市场目前最迫切需要也是量最大的。 未来我们也会推出云端推理芯片,但因为推理比训练芯片对功耗和成本更加敏感,所以我们也会谨慎选择市场的切入点。
雷锋网小结
燧原科技成立于2018年的资本寒冬,不仅融资没有受到影响,还成为了目前腾讯投资的一家AI芯片初创公司,这其中重要的原因是腾讯提出的产品热启动的概念与燧原科技创始人的理念不谋而合。作为为数不多的云端AI训练芯片的初创公司,燧原科技从产品研发到发布量产仅用了20个月的时间,这是其创始团队实力的体现,当然也是其执行力非常好地说明。
不过,性能参数漂亮的芯片发布和量产只是AI芯片初创公司成功的开始,燧原科技高性价比、高能效比的硬件,持续完善的软件平台,以及差异化、定制化的市场策略能否获得更多合作伙伴的认可,才是其走向下一步成功的关键。
挑战云端AI训练芯片市场困难很多,风险很大,但云燧T10的发布让我们对中国AI的发展增加了信心。
相关文章:
腾讯首投国内AI芯片公司,成立仅5个月专注数据中心深度学习芯片
。