Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

雷锋网 • 4年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

曾经统治手机GPU IP市场的Imagination，历经变动之后，目前在移动GPU IP市场占有率有36%，汽车GPU IP市占率43%。近来，Imagination近期发布的一系列新品不仅是其实力的展现，也足以让同行们增加对这位老对手的关注。

11月13日，Imagination发布了耗时两年研发的最新的第三代神经网络加速器（NNA）产品IMG Series4，其全新的多核架构可提供600 TOPS（每秒万亿次操作）甚至更高的超高性能，主要面向先进驾驶辅助系统（ADAS）和自动驾驶应用。

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

以低功耗产品见长Imagination推出高性能的终极AI加速器，会给在自动驾驶汽车芯片市场占有领导地位的Nvidia多大的冲击？

耗时两年打造的终极AI加速器

Imagination在AI火热的2017年推出首代神经网络加速器（NNA）PowerVR 2NX，单核性能从1TOPS到4.1TOPS。紧接着，2018年PowerVR 3NX发布，单核性能从0.6TOPS到10TOPS，多核产品性能从20TOPS到160TOPS。

性能增强的同时，Imagination的NNA主要面向的市场也从2NX时的移动设备和汽车市场，进一步拓展到智能相机监控、消费电子（尤其是数字电视）、低功耗IoT智能设备领域。

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

时隔两年之后，Imagination才推出第三代NNA产品4NX。4NX系列的单核性能进一步提升，每个单核能以不到1瓦的功耗提供12.5TOPS的性能。相比前两代NNA，新一代产品强调的是全新多核架构，这个新的多核架构支持在多个内核之间对工作负载进行灵活的分配和同步，从而实现更高性能。

Imagination Technologies产品管理部门总监Gilberto Rodriguez介绍，“我们的软件提供了精细的控制能力，并通过对多个工作负载进行批处理、拆分和调度而提高了灵活性，可以在任意数量的内核上使用。Series4可为每个集群配置 2个、4个、6个或者8个内核。1个8内核的集群可以提供100TOPS的算力，配有6个8核集群的解决方案就可以提供600 TOPS的算力。”

据悉，在AI推理方面，Series4 NNA的性能比嵌入式GPU快20倍以上，比嵌入式CPU快1000倍。

至于为什么要推出如此高性能的AI加速器，Gilberto Rodriguez表示，“ADAS和自动驾驶对芯片有很高的算力需求，比如L2+的驾驶员检测或语音/手势控制需要10TOPS的性能，L3-L4级别的自动驾驶有50-100TOPS的性能需求，L5级别的自动驾驶性能需求超过500TOPS。”

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

“虽然市场上已经有满足自动驾驶需求的AI芯片，但功耗不够理想。所以，我们花两年时间去了解和评估客户需求，基于我们的前两代低功耗的产品，推出了高性能低功耗的4NX系列产品，并且将自动驾驶作为主打市场，也可以应用于数据中心和桌面级GPU。” Imagination Technologies视觉和人工智能部门高级总监Andrew Grant表示。

600TOPS的高性能如何兼顾低功耗？

需要指出的是，4NX系列的8内核集群要实现100TOPS的性能，超过30 TOPS/Watt 的性能功耗比，以及超过12 TOPS/mm^2 的性能密度是要在5nm节点实现。 Gilberto Rodriguez也提到，如果要用多个集群实现更高算力，Imagination可以提供多集群的协同机制，但也需要客户在应用层进行一些设计。

多核灵活架构带来的可扩展性让4NX可以实现高性能，但对于高性能芯片而言，功耗的控制也非常关键，特别是AI芯片。AI芯片需要处理大量的数据，并且数据的搬运耗费的功耗远大于数据处理，因此，高性能AI芯片必须想办法尽量减少数据的搬运，同时降低延迟和节省带宽。

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

对于延迟的降低，Imagination采用的方法是单核组成2核、4核、6核或8核的多核集群中，所有内核可以相互协作，并行处理一个任务，降低处理延迟，缩短响应时间。 当然，集群中和多核既可以共同执行一个批处理任务，也可以分别运行各自不同的网络，也就是各个内核能够独立运行。

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

核数的增加带来性能提升的同时降低延迟

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

不同的核独立运行

4NX更大的亮点在于其节省带宽的Tensor Tiling（ Imagination’s Tensor Tiling，ITT）技术，这是Imagination正在申请专利的技术，也是4系列中新增的功能。Tensor Tiling技术利用本地数据的依赖性将中间数据保存在片上存储器中，最大限度地减少将数据传输至外部存储器，相比上代产品，将带宽降低多达90％。

具体而言，神经网络的多层以融合内核的形式运行在加速器的硬件流水线里，融合内核之间的特征图（Feature Map）需要通过外部存储进行交换。Tiling技术是充分利用紧耦合的 SRAM 来融合更多的层，更多的层被融合之后，就减少了需要通过外部存储交换的特征图，进而达到提升效率，节省带宽的目的。

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

还需要说明一下Tensor Tiling技术中的批处理和拆分，批处理是分配适合批处理的大量的小型网络任务到每个独立工作的NNA单核，能够提升并行处理能力。拆分则是任务在多个维度被拆分，所有NNA单核共同执行一个推理任务，减少网络推理延迟的同时，在理想情况下协同并行处理的吞吐量与独立并发处理的相同，非常适合网络层很大的网络。

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

当然，Tensor Tiling的拆分是通过Imagination提供的编译器来完成，不需要开发者手动完成，并且利用NNA的性能分析工具能够对AI任务进行更好地调度和分配。

那Tensor Tiling在节省带宽的同时能否减少数据的搬移？Gilberto Rodriguez对雷锋网表示，“答案是肯定的。一方面，Tensor Tiling让待处理数据通过内存带宽的传输减少，另一方面，重复利用的神经网络权重给处理器核的传输次数也减少，这让就可以有效减少数据搬运。”

硬件上层的工具链方面，Imagination的离线和在线工具组成的工作流程可以让开发者更快实现部署。

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

Nvidia在自动驾驶领域将迎来新对手？

Nvidia在2015年就推出了车载计算平台，此后持续迭代，目前在自动驾驶芯片市场已经处于优势地位。不过，擅长桌面级GPU的Nvidia能够提供高性能，但功耗可能对于电池供电的电动汽车不够友好。这也是在对功耗要求比较严格的移动端有优势的Imagination的机会所在。

与Nvidia有所不同，Imagination是IP提供商，并不会直接提供芯片。因此， Imagination可以与领先的汽车行业颠覆者、一级供应商、整车厂（OEM）和汽车系统级芯片（SoC）厂商合作，推出有竞争力的产品。 为了帮助合作伙伴更好进入这一市场更快推出车规级产品，此次推出的NX4还包含IP级别的安全功能且设计流程符合ISO 26262标准。 ISO 26262是旨在解决汽车电子产品风险的行业安全标准。

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

新推出的4系列NNA可以在不影响性能的情况下，安全地进行神经网络推理。硬件安全机制可以保护编译后的网络、网络的执行和数据处理管道。

Andrew Grant透露，已经开始提供授权，并将于2020年12月在市场上全面供应。授权的客户目前已经不止一家。

这就意味着，自动驾驶芯片市场将会迎来更多有竞争力的产品。雷锋网 (公众号：雷锋网) 认为，Imagination更强的GPU和NNA产品组合将会帮助更多想要进入这一市场的公司推出更有竞争力的产品。上个月，Imagination发布了最新一代的IMG B系列高性能GPU IP，这款多核架构GPU IP 4个系列内核有33种配置。

Imagination性能高达600 TOPS的终极AI加速器，会给Nvidia带来多少挑战者？

更通用的GPU和更专用的AI加速器，显然可以给高性能计算带来更多的选择。有意思的是，Nvidia目前也拥有性能强劲的GPU和AI加速Tensor Core的组合。

ABI Research预计，到2027年左右，对ADAS的需求将增长两倍，但汽车行业已然将目光投向了更远的全自动驾驶汽车和自动驾驶出租车，从L2和L3级ADAS向L4和L5级全自动驾驶演进的过程中，高性能、低延迟和高能效的结合将是关键所在。

巨大的市场机会之下，两家芯片产品优势类似的公司，会如何竞争？

注：文中配图来自Imagination Technology 雷锋网

相关文章：

一款多核架构GPU IP有多达33种配置！Imagination要守住移动市场攻向云端

Imagination第二代神经网络加速器和第九代GPU推出，AI应用如何影响芯片设计？

。

随意打赏

马斯克：特斯拉将以很大优势击败NVIDIA成为全球市值第一，不靠卖车

砍柴网 • 3分钟前

1月25日消息，近日，马斯克回应了一篇有关全球最有价值公司排名的帖子，他直言，特斯拉很有可能以“很大优势”成为全球市值No1。截至目前，NVIDIA以3.49万亿美元的市值排名全球第一，苹果紧随其后，市值为3.35万亿美元。相比之下，特斯拉市值为1.31万亿美元，还有较大差距。特斯
喜迎新春，基石智算NVIDIA 4090 限时特惠折上折！

砍柴网 • 4天前

上新啦！春节即将到来，各位千呼万唤的 4090 算力已经上线！在众多计算资源中，NVIDIA 4090 堪称 AI 开发领域 “性价比之王”，无论是复杂的深度学习模型训练，还是要求严苛的模型推理任务，都能轻松应对。作为新春福利，基石智算不光为广大用户呈上更为强大、更具备性价比的算力资源，还有更多优惠活动：新春特惠，算力
由 Arm 驱动的 NVIDIA Project DIGITS 为数百万开发者带来高性能 AI 算力

砍柴网 • 10天前

当前，一个令人振奋的趋势是，人工智能 (AI) 应用和功能正在各种边缘侧设备上快速扩展和普及。随着 AI 的不断发展和进步，对于 AI 研究员、数据科学家、开发者和学生而言，获取高性能算力以开发或运行新的模型（如语言模型、视觉模型或多模态模型）变得至关重要。鉴于 AI 创新的步伐空前加快，行业需要确保开发者在云端及边缘
跟NVIDIA玩田忌赛马！AMD RDNA 4 GPU实物首曝：尺寸果然小的多

砍柴网 • 15天前

1月9日消息，CES 2025消费电子展上，NVIDIA的RTX 50系列Blackwell GPU大放异彩，RTX 5090更是自信定出了1999美元的史上最贵售价。AMD这边RDNA 4架构的RX 9000系列系列则有点“藏着掖着”的意思，新卡只在发布会上做了简单的预览，实卡、价格、性能一概欠奉。AMD解释的原因是
NVIDIA移动版RTX 5080跑分首曝！比RTX 4080提升18%

砍柴网 • 15天前

1月9日消息，在CES 2025展会上，英伟达的全新RTX 5080移动版显卡的Geekbench跑分数据首次曝光。目前英伟达RTX 50系列显卡的评测暂未解禁，但还是有一款搭载RTX 5080移动版显卡的外星人Alienware 18 Area-51笔记本出现在了Geekbench上。结果显示，RTX 5080移动版
NVIDIA Blackwell GeForce RTX 50 系列开启 AI 计算机图形新世界

砍柴网 • 16天前

得益于 AI、神经网络着色器和 DLSS 4,新一代 GeForce RTX GPU 带来震撼的视觉逼真效果和 2 倍性能提升拉斯维加斯—CES—太平洋时间 2025 年 1 月 6 日— NVIDIA 宣布为游戏玩家、创作者和开发者推出最先进的消费级 GPU——GeForce RTX™ 50 系列
NVIDIA 推出面向 RTX AI PC 的 AI 基础模型

砍柴网 • 16天前

NVIDIA NIM 微服务和 AI Blueprint 助力开发者和发烧友在 PC 上构建 AI 智能体和创意工作流拉斯维加斯—CES—2025 年 1 月 6 日— NVIDIA 今日发布能在 NVIDIA RTX™ AI PC 本地运行的基础模型,为数字人、内容创作、生产力和开发提供强大助力。这
NVIDIA 推出 Grace Blackwell 桌面系统，让每位 AI 开发者都能触手可及

砍柴网 • 16天前

NVIDIA Project DIGITS 搭载全新 GB10 超级芯片,成为全球最小的可运行 200B参数模型的 AI 超级计算机拉斯维加斯—CES—太平洋时间 2025 年 1 月 6 日— NVIDIA 推出个人 AI 超级计算机 NVIDIA® Project DIGITS,全球的 AI 研究员、数据科
技嘉于 CES 2025 首度亮相升级散热设计与精实体积的 NVIDIA GeForce RTX 50 系列显卡

砍柴网 • 17天前

以 Evolution of Ten 设计概念增强 10% 性能且缩小 10% 体积技嘉科技 (GIGABYTE)于 CES 2025 发布采用 NVIDIA Blackwell 架构及 AI 技术的 GeForce RTX™ 50 系列显卡,包含RTX™ 5090 D, RTX™ 5080
联发科与NVIDIA合作为NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片

砍柴网 • 17天前

联发科近日宣布与NVIDIA合作设计NVIDIA GB10 Grace Blackwell超级芯片，将应用于NVIDIA 的个人AI超级计算机NVIDIA® Project DIGITS。联发科在智能手机、智能电视、Android平板电脑、语音助理设备（Voice Assistant De

评论