巨头PK AI芯片:英特尔CPU+FPGA能打败谷歌TPU吗?
【编者按】近日, 英特尔 宣布与科大讯飞达成技术合作,共同优化在机器学习与深度学习领域的离线训练与在线预测,并在上周举办电博会上进行了展示。本文是网易智能对英特尔技术专家与科大讯飞深度学习平台研发总监张致江的采访,值得一读。
本文转载自公众号网易智能(ID:smartman163),作者小羿;由亿欧编辑,供行业内人士参考。
英特尔 AI芯片 技术布局: CPU+FPGA
据了解,2016年11月,英特尔和讯飞签署了一个为期是三年的 人工智能 技术合作框架。英特尔与科大讯飞的技术合作涵盖了 深度学习的完整流程,包括数据采集,离线训练(Traning),在线预测(Inferencing),采集新数据组,进行新的离线训练。
机器学习/深度学习中最重要的技术是离线训练和在线推理。 针对离线训练,英特尔和讯飞主要是针对现在的KNL和即将要发布的KNM来提升讯飞在深度学习平台的性能。 科大讯飞深度学习平台研发总监张致江表示, 英特尔下一代的处理器KNL和KNM这方面去做这样的事情效果非常好,目前在这个上面做的跟主流的深度学习处理方案水平相差很小,同时下一代的KNL、KNM因为有很大的显存、编程的特性,未来可能考虑用这种方案去做平台建设。张致江称,现在主流的一些加速方案可能会限制整个计算的memory,而KNL、KNM实际上是打破了这样一个限制。
在线推理方面,主要是用英特尔的FPGA技术。 张致江称,在线预测传统的方法基本上都是用CPU的方式去做这样的事情,但是随着业务量的增长整个服务器的数量也是随着线性增长的,成本太高。张致江称,我们在用CPU加FPGA的方案去做的时候,一台服务器里面就插了一张FPGA的加速处理器,整个性能是远远超过于两台甚至三台、四台CPU机器的性能,成本也会降低很多。
也就是说,英特尔将人工智能芯片的技术路径分为离线训练与在线推理两方面,针对离线训练会主推至强融核KNL/KNM处理器(KNM尚未上市),特点是针对单精度操作进行了优化,支持自启动,能够独立运行操作系统和应用软件,内置片上内存,直接通过内存控制器从DDR4内存读取数据到处理器缓存,对行业标准的开源深度学习框架进行了优化。在线预测阶段,英特尔主推至强CPU+Arria10FPGA的方案,声称可以实现低延迟高通量在线处理,因为英特尔A10FPGA原生支持并行多通道任务处理,超过1500个单精度浮点计算单元会同片上/本地存储提供稳定的低处理迟延,成本更低。
基于CPU+FPGA,能替代GPU吗?
英特尔人工智能事业部(AIPG)首席技术官Amir Khosrowshahi在最近接受媒体采访时表示,目前所使用GPU太低级了,半导体行业需要构建全新的神经网络架构。Khosrowshahi认为,在执行图形渲染过程中辅助图形处理单元的部分功能是没有必要的,比如大容量缓存,顶点处理,渲染和纹理等等,从能源利用率上考虑也产生了相当高的成本。Khosrowshahi称,“神经网络则相当简单,利用小巧的矩阵乘法和非线性就能直接创建半导体来实现GPU的功能,而且你所创建的半导体非常忠诚于神经网络架构,显然这是GPU所无法给予的。”
而CPU+FPGA的优势在于,对于开发人员CPU的编程是相对比较容易的。 如果说是用CPU加另外一个企业的加速处理器,往往这个加速处理器跟CPU不是编程体系或者不是一个优化体系,那么就要选另外一套优化体系。张致江称,如果你不是学计算机专业的,这相当于另外一个,它是一个异构体系,你去优化这个异构体系的性能,实际上还是非常吃力的,它甚至跟CPU完全不一样。英特尔出了KNL、KNM这样的东西,你在CPU上写的程序直接放上去就可以了,只要再学习一点点优化方法效率就能很好,所以我觉得这个接受程度会更高。
但显然,GPU是占了先机的,NVIDIA的方案是目前人工智能的主流。 张致江坦言,人工智能刚刚兴起也就是这几年,刚刚兴起之初业内很多人都是用GPU这个方案去做的,但是AI有自己的一些计算特点,这时候我们就看了KNL和FPGA,我们做的KNL、FPGA不能说是比它多好或者比它差,它是两种不同应用领域的东西,有擅长、有适合的地方, GPU有些地方走的时间比较早一点,可能它的库各方面会成熟一些。因为FPGA的原因,在编程方式各方面更加容易,会更加适合这样一些特殊应用场景的需求。
英特尔技术专家认为,FPGA最初是用在通讯领域,在英特尔收购的Altera这家公司出的这一代产品,当时很多人普遍认为他们出的这一代东西不是很好,为什么不是很好呢?是因为在通讯领域另外一些发现会更好,但是后来我们做过研究发现A10这一代更加适合深度学习和 大数据 的应用场景,而且获得了非常好的效果。
谷歌TPU 秒杀CPU/GPU,CPU+FPGA能招架吗?
英特尔用CPU+FPGA叫板GPU,但谷歌的TPU成了螳螂后面的黄雀。
近日,谷歌首次透露TPU细节,其执行谷歌常规机器学习工作负载的处理速度比GPU/CPU快15-30倍。这一消息表明随着人工智能的发展,以往的GPU/CPU架构已经相对落后。
不过除了Google,英特尔通过不断的收购也在进行相关的研发。Khosrowshahi给出的答案: 就是目前尚在开发中的LakeCrest,这是英特尔今年会面向部分客户提供离散加速器。但伴随着时间的推移,它将会成为Xeon处理器的最佳伴侣。
另外,软件的优化和整合也是英特尔、英伟达、谷歌抢占市场的关键。张致江称,无论在前端还是后端,英特尔擅长的其实是底层的计算架构、硬件这一块,讯飞特别擅长的在于软件这一块,包括有自己的算法、神经网络、数据结构模型、处理方式等等。