人工智能时代,谷歌、英特尔和英伟达之间的计算能力角逐战
凤凰科技 花子健
2001年6月26日,著名导演史蒂文·斯皮尔伯格执导的《人工智能》(英文名:《AI》)在美国上映。影片讲述的是机器人小男孩大卫为了寻找养母,并缩短机器人与人类的差距而奋斗的故事。
《人工智能》电影剧照
大卫是一个被输入情感程序的机器人男孩,Cybertronics Manufacturing公司员工亨瑞和他妻子制造出的一个试验品。他们收养了大卫,并给了他足够的爱,但是人类与机器都无法接受大卫。于是大卫踏上旅程去寻找真正属于自己的地方,渴望成为一个真正意义上的人。
在这部影片上映15年后,机器人还没有成为真正意义上的人, 但人工智能在围棋领域战胜了人类。它的强大和超强的进化能力,让人类棋手难以望其项背。
AlphaGo以3:0战胜柯洁九段
“AlphaGo Master比AlphaGo Lee(与李世石对战的版本)要强大,Master在对战中耗费的能力(性能和功耗)仅是Lee版本的十分之一,需要4个TPU在单台电脑上运行即可。“DeepMind首席科学家David Silver在AlphaGo 战胜李世石后这样解释说。
AlphaGo强大到令人绝望,引发了“人工智能威胁人类”的讨论。但在本质上,人工智能是算法、数据和硬件三个要素综合的结果。
一旦涉及到算法、数据,就离不开计算。在这个领域,用来计算的硬件主要是TPU、GPU和CPU,他们背后代表的公司则分别是谷歌、英伟达和英特尔。这几家公司彼此竞争,又互相需要。
TPU(Tensor Processing Unit)是专为机器学习而定制的芯片,经过了专门深度机器学习方面的训练。谷歌工程师Norm Jouppi介绍,在人工智能相关的算法上,它的计算速度更快,计算结果更精准,同时也更加节能。
谷歌在I/O 2017上发布第二代Cloud TPU
人工智能依赖于机器学习(Machine Learning),机器学习又依赖于硬件,它需要硬件平台提供大量的运算资源。就计算效率来说,专用工具的计算效率远高于通用工具。专门为机器学习定制而出现的谷歌的TPU就是一种专用的工具,业内普遍认为它的出现对于通用工具GPU来说是一种威胁。
GPU的设计初衷不是主要用来进行神经网络运算,而是图像处理。由于其特殊的构造碰巧也比较适用于神经网络运算,所以在TPU出现之前,大多数做机器学习厂商都在同时利用FPGA和GPU来改进训练自己的神经网络算法。
英伟达创始人兼CEO黄仁勋却不认同“TPU威胁论”,在接受凤凰科技的采访时,他表示谷歌的TPU不会对英伟达的Volta GPU构成威胁,双方在TensorFlow项目上保持着合作,而Volta GPU的运算能力甚至在TPU之上。
作为世界最大的GPU制造商之一,英伟达一直不遗余力地推广GPU在深度学习领域的应用。老黄将英伟达称为“一家人工智能公司”。
谈到英伟达基于GPU的人工智能战略,需要先从Volta说起。
在今年5月11日的NVIDIA GTC 2017上,英伟达推出了全新的GPU架构Volta。英伟达应用深度学习研究副总裁Bryan Catanzaro表示这并不是前代架构Pascal的升级,而是一个全新的架构。Volta提供大量的FLOP(浮点运算),基于Volta的架构,人们就可以使用需要更多FLOP的深度学习模型。如今很多流行的模型都需要很大的计算资源,例如卷积学习神经网络。
黄仁勋展示基于Volta架构的Tesla V100加速芯片
基于全新的Volta架构,英伟达推出Tesla V100加速器,它速度比其前身Tesla P100快2.4倍。
Tesla V100凝聚了英伟达内部数千名工程师数年的开发,研发投入相当于30亿美金。黄仁勋在NVIDIA GTC 2017的主题演讲中,展示了一块Tesla V100,他笑称全世界唯一一块就在他手上,如果有人想买的话,那么价格就是30亿美金。
而在Tesla V100加速器基础上,英伟达推出了超级计算机DGX-1V和HGX。
DGX-1V内置了8块Tesla V100,黄仁勋表示“DGX-1V相当于400个服务器”,过去Titan X(GTX TITAN X,泰坦显卡)需要花费8天训练的神经网络,DGX-1V只需要8个小时,性能提升了24倍。
HGX是英伟达和微软联合开发的云图形加速器,是英伟达人工智能战略的硬件支撑。它同样内置了8块Tesla V100。目前微软的Project Olympus计划、Facebook的Big Basin系统都是使用的HGX作为数据中心设计方案的核心。
黄仁勋在台北国际电脑展的主题演讲中表示,GPU的运算能力提升非常快,能在未来取代CPU成为最主要的人工智能芯片。
但是英特尔并不这么认为。台北国际电脑展期间,英特尔数据中心全球销售部产品和技术总经理陈葆立在接受凤凰科技采访时提到, TPU和GPU只是加速芯片,目前是无法独立工作的,没有CPU它跑不起来。
“不管是AMD或者是ARM出的CPU,都是不能直接连接到英伟达的GPU的,连接的标准是PCIE(这属于英特尔),传输速度取决于PCIE的速度。但是目前我们自己的芯片组合可以跳过PCIE,所以能比CPU+GPU更快。”他说。
在收购Nervana之后,英特尔拥有了将至强融核处理器和FPGA两个不同的芯片整合成一个芯片的能力。在最新的Nervana系统中,就包含了FPGA加速芯片Arria 10和至强融核处理器的整合。
Arria 10就是一款主流的Altera FPGA产品
FPGA最初是从专用集成电路发展起来的半定制化的可编程电路,它可以作为一种用以实现特殊任务的可再编程芯片应用与机器学习中。
譬如百度的机器学习硬件系统就是用FPGA打造了AI专有芯片,制成FPGA版百度大脑。FPGA比相同性能水平的硬件系统消耗能率更低,在刀片式服务器上可以由主板上的PCI Express总线供电。使用FPGA可以将一个计算得到的结果直接反馈到下一个,不需要临时保存在主存储器,所以存储带宽要求也在相应降低。
英特尔的方案是将CPU与FPGA融合起来,组合芯片的运算更加灵活和高效,同时还能实现最低的功耗,获得性能和功耗的平衡。
人工智能方兴未艾,谷歌的TPU、英伟达的GPU和英特尔的CPU组合方案,在硬件层面上都还只是尝试,这种尝试能帮助实现早期的技术积累。在采访的最后陈葆立提到,虽然是不同的硬件平台,但是大家都在想办法融合,这有利于帮助开发者,从而真正帮助人工智能向前发展。