黄仁勋GTC主旨演讲:从摩尔定律谈起 发布新GPU
【网易智能讯 5月11日消息】 英伟达举办了本年度GPU开发者大会,该公司首席执行官黄仁勋主题演讲历时两个多小时,其内容涉及到机器学习的方方面面,以及基于英伟达图形处理芯片(GPU)的众多应用程序。而整个演讲的亮点是其宣布英伟达发布了新的Volta架构以及相应架构的V100芯片。
英伟达一直在努力使其图形处理芯片更适用于人工智能应用程序,并在芯片中增加了16位浮点快速计算等功能。但它的新Volta架构将这种专业化功能提升到了一个新的层次,通过采用新的张量核心,极大地加速了神经网络的训练和推理能力。Volta的张量核心专门为神经网络设计,而传统的GPU核心主要用来完成像阴影处理这样的经典图形操作。
而对于神经网络来说,基本的构建模块是矩阵乘法和加法。英伟达的新张量核心可以执行所有的操作,可进行多组双4x 4矩阵运算,同时增加第三个矩阵并行计算。因此,V100上可并行运行5120个核心,而每个核心本身也可并行运行其他操作。英伟达表示,其结果是在推断学习过程中,V100的学习速度是Pascal的12倍,推理速度则是Pascal的6倍。
英伟达V100堪称有史以来最令人印象深刻的芯片之一。在815平方毫米的面积中,布满了210亿个晶体管, 英伟达的首席执行官黄仁勋表示,这是目前半导体领域可以制造的最大、最复杂的芯片。该芯片的研发成本为30亿美元 ,而芯片是由台积电的12nm制程工艺制造,使用了三星提供的高速内存。
在主题演讲结束后,英伟达解释说,它之所以使用12nm的大尺寸,是为了制造出最先进的芯片。谷歌近期也针对人工智能打造了定制的TensorFlow芯片,但Volta架构芯片的发布或将有效阻止其竞争发展。
Volta显然是英伟达人工智能战略的一部分,但它并没有就此止步。黄还在大会上宣布了TensorRT,这就是Tensorflow和Caffe编译器,旨在优化gpu运行性能。编译器不仅能提高效率,还大大降低了谷歌定制芯片的缺陷。其使得TensorFlow芯片比Skylake或P100图像识别基准延迟低30%。而在设备负荷方面,Tesla V100 PCIe可以取代十几个传统CPU,而且能耗要低得多。
此外,英伟达还对定制化推理芯片竞争做出了更直接的回应,宣布该公司正在开发DLA(深度学习加速器和代码开源软件。其张量核心配置了高达20MB的寄存器堆,高达16GB的HBM2显存读写速度高达900GB/s,而NVLink输入输出达到300GB/s。其结果是Volta架构完全就是针对人工智能打造的芯片架构。
英伟达后来证实,并非所有Volta架构处理器都有如此高的人工智能加速功能,有些可能更专注于纯粹的图形或通用计算性能。英伟达解释称,它的张量核心是进行训练和推理操作的理想选择,而并不是要创建一个单一产品线。
V100芯片将是超级计算机DGX-1以及HGX-1的核心处理芯片。据悉,经过升级后的DGX-1采用8颗V100芯片,将于第三季度发布,售价约为149,000美元。而采用4颗V100芯片的DGX Station售价为69,000美元,同样计划在第三季度发布。而基于V100的OEM产品预计将在今年年底前开始发货。
英伟达还与微软Azure合作开发出了一款云友好型超级计算机HGX-1,其配置了8颗V100芯片,能够进行灵活配置,以满足各种云计算的需要。微软计划在自己的应用程序上使用Volta架构,并向Azure用户开放。
英伟达预计,除了纯粹的软件应用之外,Volta还将为自动驾驶汽车和机器人提供支持。英伟达预计,基于Volta架构的处理器和电路板将成为人工智能设备进行学习和推理的核心。
这其中包括了各种机器人系统,特别是那些使用英伟达新发布的Isaac机器人模拟工具,以及各种类型的自动驾驶汽车。其中空客公司正在设计一架可以垂直起飞的小型飞机,能够搭载两名乘客至70英里。其也使用了英伟达 新发布的Isaac机器人模拟工具。
(英文来源/entremetech编译/机器小易 校对/晗冰)