谷歌TPU第二代PK英伟达胜算几何?
【编者按】本文从产品端出发,展望了 谷歌 进军 TPU 市场的阻碍,以及 英伟达 在TPU率先布局建立的优势。文章来自The Motley Fool,由新智元翻译,经亿欧编辑,供业内人士参考。
为了在 人工智能 市场抢占更大的份额,英伟达和Alphabet这两家公司结成了意想不到的对手。到目前为止,Alphabet一直在谷歌云平台使用英伟达的GPU加速其各种AI应用,但现在看来,这家巨头很是有意自己单独切入这块有着巨额利润的空间。
就让我们仔细看看英伟达和谷歌在人工智能上的渊源,以及可能产生的影响。
谷歌揭幕TPU第二代,在谷歌云平台构建机器学习超级计算机
Alphabet在去年谷歌I/O大会上推出了自己的AI芯片——张量处理器TPU。TPU被广泛用于各种应用,包括优化搜索和语音识别的结果,在Alphabet的数据中心里也有使用。
与此同时,谷歌也在 云计算 平台使用英伟达的Tesla GPU,帮助用户训练模型。例如,2016年11月,英伟达就对外公布了,谷歌选择使用英伟达的Tesla P100 GPU和K80加速器为谷歌计算引擎(Google Compute Engine)和谷歌云机器学习用户提供AI服务。
但是,在今年5月I/O大会上,谷歌推出第二代TPU,并且通过云服务供用户使用,此举震惊了科技界。在今年4月发布的一篇官方博文中,谷歌表示TPU比当前的CPU/GPU速度快15~30倍。
第一代TPU只加速推理,但现在第二代TPU新增了训练的功能。不仅如此,谷歌的用户还能通过专门的网络,在云端利用TPU构建机器学习的超级计算机。
事实上,谷歌宣布自己已经成功将某些AI模型的训练时间缩短到几个小时,以前这样的模型用市售GPU需要一天时间来训练。
到今年年底,当谷歌TPU推出时,这可能意味着谷歌和英伟达在AI芯片上关系的终结。
英伟达:用开源来反击
英伟达的回应是,谷歌在比较TPU相对于GPU的速度时,没有与最新的Pascal架构比较,而是选择了较早的Kepler GPU。
此外,英伟达也没有闲着,宣称即将上市的Volta GPU加速深度学习的性能会更好。
实际上,英伟达不仅仅定位于硬件供应商,这家公司正在开发一个名叫英伟达GPU云(NVIDIA GPU Cloud,NGC)的服务,将配套提供GPU(比如英伟达基于Volta的 Tesla V100)和英伟达深度学习库。
英伟达采取了与谷歌不同的方式,专注将AI计算力作为平台即服务(platform-as-a-service)来提供。
谷歌不会对外出售TPU,而是用TPU驱动自己的Google Compute 平台。因此,英伟达目前还无需担忧失去谷歌这一客户。另一方面,Volta GPU 平台已经开始具有商业吸引力,亚马逊已确定在今年晚些时候V100芯片上市后立即购入。
英伟达的另一个优势在于,谷歌还没有决定要开源AI框架,因此TPU的用户被锁定在谷歌的平台上。而英伟达支持各种不同的云平台,包括亚马逊、微软、谷歌、IBM,给了用户在云服务供应商(CSP)方面更多的选择。
此外,英伟达CEO黄仁勋还出了一个狠招,他在公司官方博文中写道,要开源英伟达的深度学习加速器。“不需要再来人投资打造会推理的TPU,我们这里免费提供——由世界上最好的芯片设计师设计。”
相对于局限在谷歌云服务中的TPU,英伟达的开源让其产品成了CSP巨头,比如亚马逊和微软的选择。同时,谷歌云平台还不如亚马逊和微软的云平台那么成功,而这也将限制谷歌云平台的发展。