NVIDIA能在竞争激烈的AI芯片市场保持优势吗？

雷锋网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网按，供职于Moor Insights & Strategy的高级分析师Karl Freund以《深度学习的寒武纪爆发》为题分三部分阐述了自己对深度学习芯片的观察，前两篇《芯片巨头们2019年的AI芯片之争会如何？》《2018年全球最值得关注的AI芯片初创公司》分别解读了巨头和初创公司的AI芯片。

本系列的最后一篇文章，作者分别从训练和推理市场的角度，去解读NVIDIA如何在竞争更加激烈的市场中保持领先地位。

从Nervana的历史说起

首先，我们看看英特尔与Nervana之间的故事。在被英特尔收购之前，Nervana声称其产品性能将比GPU高至少10倍。然后发生了一件有趣的事，NVIDIA的TensorCores让所有人感到惊讶，因为TensorCores的性能不是Pascal的2倍，而是5倍。然后NVIDIA用NVSwitch再将其性能翻倍，这使得它能够实现惊人的高性能（售价40万美元，非常昂贵）8 GPU DGX-2服务器，它的性能击败了大多数（如果不是全部）竞争对手。

与此同时，NVIDIA CuDNN库和驱动程序的性能提升了大约一倍。它还构建了基于GPU的云，让GPU的使用非常简单，只需点击并下载大约30个深度学习和工作负载的优化软件堆栈容器即可。所以，正如前面文章提到的那样，英特尔的10倍性能优势已经消失，Nervana不得不重新设计，英特尔承诺将在2019年底推出新芯片。英伟达基本证明了拥有扎实基础的10000多名工程师可以超越50名顶级的工程师（雷锋网注，Nervana被收购时拥有50人的团队）。对此没人应该感到惊讶，对吧？

10000名工程师团队的优势

进入到2019年，竞争对手再次声称他们研发中的芯片有超越英伟达GPU 10甚至100倍的性能优势。需要注意的是，NVIDIA拥有规模达10000名工程师的团队，在全球与顶尖研究人员和最终用户建立协作关系。现在，他们正在为NVIDIA的下一代7nm芯片寻找最佳设计，在我看来，这将是英伟达的产品从“带有AI的GPU芯片”转变为“带有GPU的AI芯片”的转变。 NVIDIA能在竞争激烈的AI芯片市场保持优势吗？

图1：NVIDIA的DGX-2超级计算机一体机可在NVSwitch上互连的16个V100 GPU上提供2 peta-ops的AI性能

NVIDIA工程师可以为下一代产品增加多少“沙子”（逻辑区域）？虽然以下分析很简单，但对于寻找关键问题的答案是有用的。

让我们从具有出色性能的ASIC—— 谷歌 TPU开始，我看到有分析师估计每个TPU芯片大约集成了20-25亿个晶体管。Volta V100在12nm制造工艺中拥有大约210亿个晶体管，它是台积电可以制造的最大芯片。随着NVIDIA使用的制造工艺从12nm变为7nm，芯片可以包含大约1.96（1.4x1.4）的晶体管。因此，从理论上讲，如果NVIDIA没有添加图形逻辑单元（不可否认），它将拥有另外200亿个晶体管，这大约是TPU逻辑量的十倍。假设逻辑差2倍。在这种情况下，NVIDIA工程师仍然有5倍的逻辑单元用于AI功能。现在，NVIDIA可能全力以赴提升性能，而非降低成本或功耗。

在训练市场，这就是用户需要的——更短的训练时间。关于NVIDIA可能会做哪些改良有很多观点，包括片上内存或处理器中更多的TensorCores。

我的观点是，NVIDIA毫无疑问拥有可用于芯片创新的储备，就像TensorCores一样。我采访过许多AI芯片初创公司，但我最尊重的那些人告诉我不要低估NVIDIA，也不要认为NVIDIA被锁在GPU的思维中。NVIDA DLA和Xavier，这两个ASIC和SoC，证明了NVIDIA可以构建各种加速器，而不仅仅是GPU。因此，许多这些创业公司的CEO决定不用NVIDIA的方式，而是首先进入推理市场。

我认为NVIDIA在训练市场的劣势不会长期存在，它现在的问题可能是芯片成本高，但对于AI训练，客户愿意付出代价。此外，在推理市场，NVIDIA的Xavier是令人印象深刻的芯片。

深度学习寒武纪爆炸有利于可编程性

让我们回到寒武纪爆炸的想法。NVIDIA指出我们还处于AI算法研究的早期阶段。比如用于图像处理的卷积神经网络的ASIC可能（并且几乎肯定会）对于其它网络比如GAN，RNN或尚未发明的神经网络表现就会非常糟糕。

不过，如果NVIDIA能够解决急待解决的内存墙问题，GPU的可编程性再加上NVIDIA工程师共同构成的生态系统，GPU应该可以相当快地适应一种新的神经网络处理形式。NVIDIA已经通过NVLINK创建8个GPU和256GB高带宽（HBM）内存网络，以极高的价格为代价解决内存问题。我们不得不等待下一代GPU，以了解它是否以及如何解决延迟和带宽问题，这将需要大约10倍HBM性能的内存。

推理战争

边缘和数据中心推理市场需求多样，并且有望实现快速增长，但我怀疑的是，大众推理市场是否会成为一个特别具有吸引力的市场。毕竟，随着越来越多公司关注和抢占这一市场，产品的最终利润率可能相当薄弱。

现在，一些推理很简单，但有些推理却非常困难。后者的市场将保持较高的利润率，因为只有配备CPU的复杂SoC（比如Nervana）、GPU、DSP和ASIC等具备并行处理能力的处理器才能为自动驾驶等提供所需的性能。

任职于英特尔的Naveen Rao最近在Twitter上发布的消息透露， Nervana推理处理器可能是基于10nm的 SoC，集成Ice Lake CPU内核。NVIDIA已经引领了这种方法，比如用于自动驾驶的Xavier SOC。 Xilinx 也采用了类似的方法，今年晚些时候，它的Versal将推出。想要用这样的方式的任何创业公司都需要具备两个特性：1）非常高的能耗比，2）创新的产品路线图，这将使他们能取得领先。

结论

总之，我将强调以下内容：