推理和机器人,哪一个才是英伟达「AI工厂」的增长故事?
雷峰网 (公众号:雷峰网) 消息,北京时间3月19日凌晨,英伟达公司创始人兼CEO黄仁勋在GTC会议上发表主题演讲。
DeepSeek爆火后,英伟达被推上风口浪尖,对于AI发展是否会带来更大数量级的算力需求,市场生出隐忧。演讲开场,黄仁勋便做出回答 : “全世界都错了,Scaling law有更强的韧性,现在的计算量是去年同期的100倍。”
推理让AI具备“思维链”,模型响应需求时会对问题进行拆解,而不是直接给出答案, 对每个步骤进行推理势必让产生的Token数量增加。 模型变得更加复杂, 为了保证原有的推理速度以及响应能力 ,便对算力提出了更高的要求。
Token是AI的基本单元,推理模型本质上是一座生产Token的工厂,提高Token的生产速度就是提高工厂的生产效率, 效率越高,利益越大,算力要做的就是探索生产效率的边界。
而具备自主推理能力的Agentic AI发展趋势之下,势必带动物理AI的发展。GTC会议上, 英伟达带来Blackwell Ultra、推理系统Dynamo、Blackwell NVLink 72、下一代AI芯片Rubin等全新发布 ,用性能回应需求。
AI芯片将「年更」,Rubin性能达Hopper「900倍」
AI的发展让数据中心的资本支出不断攀升,数据显示, 2028年数据中心资本支出将达到1万亿美元 ,黄仁勋称: “这其中的大部分增长可能还会加速。” 资本支出增加、盈利能力提升,带来的是英伟达在数据中心领域的营收增加。
为了让计算机成为更强的“Token生成器”, 英伟达发布新一代“最强AI芯片” Blackwell Ultra。
单从硬件上看,Blackwell Ultra相较于GB200带来的最大升级是 采用12层堆叠的HBM3e内存 ,成为全球首个显存达到288GB的GPU。对此,有消息称, SK海力士将独家供应Blackwell Ultra。
高效响应推理模型,对算力、内存及带宽提出更高的要求。英伟达推出Blackwell Ultra GB300 NVL72机架级解决方案,集成 72个Blackwell Ultra GPU和36个Grace CPU ,满足AI推理工作负载对算力和内存的要求。
Blackwell Ultra GB300 NVL72将于2025年下半年发布,其 性能为GB200 NVL72的1.5倍、40TB快速闪存为前代1.5倍,14.4TB/s带宽为前代2倍。
要更好释放硬件的算力,软硬件协同变得更加重要,为此,英伟达推出分布式推理服务库NVIDIA Dynamo,通过协调并加速数千个GPU之间的推理通信, 为部署推理AI模型的AI工厂最大化其token收益。
在GPU数量相同的情况下,Dynamo可以实现Hopper平台上运行Llama模型的AI工厂 性能和收益翻倍 ,在由GB200 NVL72机架组成的集群上运行DeepSeek-R1模型时,Dynamo的智能推理优化 能将每个GPU生成的Token数量提高30倍以上,并让Blackwell的性能相较于Hopper提升了25倍。
黄仁勋表示, Dynamo将完全开源 并支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM,使企业、初创公司和研究人员能够开发和优化在分离推理时部署AI模型的方法。
在推理模型中, Dynamo则让Blackwell的性能达到Hopper的40倍 ,黄仁勋笑称:“当Blackwell批量发货时,就不要再拿Hopper去送人了。”
以功率为100兆瓦的AI工厂为例,其能供能45000个H100芯片,共计1400个H100 NVL8机架, 生产力为3亿个Token。 同等功率下,其能供能85000个GB200芯片,共计600个机架, 生产力为120亿个Token。 相较于H100 NVL8,GB200 NVL72不仅带来更强的算力,而且在功耗和空间占用上更有优势。
“买得越多,省得越多。”黄仁勋又说出了他的带货名言,这次还补充道, “买得越多,赚得越多。”
旗舰版AI芯片作为GTC的 “最大看点” ,仅仅宣布Blackwell Ultra很难满足外界预期。对此,黄仁勋公布了英伟达旗舰芯片的全新路线图,芯片架构的更新周期正在加速, 由每两年推出新的产品线调整为“每年一更”的产品节奏。
每代产品更新均基于全栈解决方案、依托统一架构,并秉持“CUDA无处不在”的理念推进。按照路线图规划,黄仁勋提前预告了 下一代AI芯片“Rubin” ,遵循以往采用科学家名字命名架构的惯例,本次新架构以美国天文学家“Vera Rubin”的姓氏命名,以纪念其证实了暗物质存在的卓越贡献。
Vera Rubin NVL144预计将在2026年下半年发布,在进行FP4精度的推理任务时,性能达到3.6ExaFLOPS,进行FP8精度的训练任务时,性能为1.2ExaFLOPS, 与GB300 NVL72相比,性能提升了3.3倍。
Vera Rubin NVL144配备HBM4,带宽达到13TB/s, 拥有达到前代1.6倍的75TB快速闪存。 支持NVLink6和CX9, 带宽均达到前代2倍 ,实现数据传输效率的提升。
黄仁勋表示,Blackwell的性能相较于Hopper提升了68倍, 而Rubin的性能将达到Hopper的900倍。
与Blackwell一样,除了标准版本, 英伟达还计划于2027年下半年推出Rubin Ultra NVL576 ,在进行FP4精度的推理任务时,其性能达到15ExaFLOPS,进行FP8精度的训练任务时,性能为5ExaFLOPS, 与GB300 NVL72相比,性能提升了14倍。
Vera Rubin NVL144将配备HBM4e,带宽达到4.6PB/s, 拥有达到前代8倍的365TB快速内存。 支持NVLink7,带宽1.5PB/s,为前代12倍。支持CX9,带宽115.2TB/s,为前代8倍。
CPU部分,Vera芯片搭载88个定制Arm核心, 支持176线程,具备1.8TB/s的NVLink - C2C(芯片到芯片)带宽 ,在多芯片互联等场景下能高效传输数据。GPU方面,Rubin Ultra集成4个Reticle-Sized GPU, 每颗GPU拥有100PF的FP4算力,搭配1TB HBM4e显存 ,在性能和内存容量上达到新高。
在训练、推理及应用部署等关键环节,AI芯片平台都需要网络为其提供高速稳定的数据传输。英伟达推出Spectrum-X和Quantum-X硅光网络交换机, 为全球最先进的AI云及AI工厂提供支持。
Spectrum-X网络交换机有多种配置, 最高配置512端口800Gb/s或2048端口200Gb/s,总吞吐量达400Tb/s。 与之配套的Quantum - X网络交换机基于200Gb/s SerDes技术,提供144端口800Gb/s的InfiniBand连接,与上一代相比, 速度提升2倍、可扩展性提升5倍。
不止AI工厂,DGX Spark和DGX Station打造「AI桌面」
为了支持AI开发者、研究人员、数据科学家和学生等群体,英伟达推出“全球最小AI超级计算机”DGX Spark,其支持在台式电脑上对大模型进行 原型设计、微调和推理 ,用户可以在 本地、云或数据中心基础设施 中运行这些模型。
DGX Spark是基于GB10 Grace Blackwell打造的个人AI超级计算机系列产品,根据台式电脑外形规格进行了针对性优化,其支持第五代Tensor Core和FP4, 每秒计算次数达到1000万亿次。 GB10采用NVIDIA NVLink-C2C互连技术, 带宽是第五代PCIe的五倍 ,并且能够访问GPU和CPU之间的数据,为内存密集型AI开发者工作负载优化性能。
英伟达的全栈AI平台支持DGX Spark用户将其模型从台式机迁移到DGX Cloud、其他加速云及数据中心基础设施中, 并且无需修改代码 ,简化了对其工作流进行原型设计、微调和迭代的要求。
黄仁勋表示:“AI改变了每一层计算堆栈。我们有理由相信将出现一类专为AI原生开发者而设计并用于运行AI原生应用的新型计算机。 借助全新的DGX个人AI计算机,AI能够从云服务扩展到台式电脑和边缘应用。”
DGX Station是Ultra平台的高性能桌面超级计算机,定位为面向企业和科研机构的高性能AI计算站,能够帮助企业构建私有AI推理系统, 相较于DGX Spark,适用于更大规模的AI开发领域。
DGX Station是第一款 采用英伟达GB300 Grace Blackwell Ultra 桌面超级芯片构建的台式机系统,拥有784GB统一系统内存,支持800Gb/s网络连接的ConnectX-8 SuperNIC, AI性能达到20PFLOPS。
从数据、模型到算力,英伟达「全面驱动」人形机器人
“机器人时代已经到来, 其能够与物理世界交互并执行数字信息无法完成的任务。” 黄仁勋说,“世界正面临严重的劳动力短缺,到2030年,全世界将短缺5000万名工人, 我们可能不得不每年支付5万美元薪水给机器人。”
物理AI正在改变规模50万亿美元的产业。英伟达推出全新Cosmos世界基础模型, 引入开放式、可完全定制的物理AI开发推理模型 ,包含各种模型尺寸并适用于多种输入数据格式, 帮助生成大型数据集 ,能将图像从3D扩展到真实场景,缩小仿真与现实之间的差距。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI和Uber是首批采用Cosmos的企业, 可更快、更大规模地为物理AI生成更丰富的训练数据。
“正如大语言模型改变了生成式和代理式 AI, Cosmos世界基础模型是物理AI的一项重大突破。” 黄仁勋表示, “Cosmos为物理AI带来了一个 开放式、可完全定制的推理模型 ,为机器人和物理工业领域的突破性发展带来了机遇。”
满足数据需求之外,英伟达推出人形机器人基础模型Isaac GR00T N1, 采用“快速反应”的系统1以及“深度推理”的系统2双架构 ,黄仁勋表示, Isaac GR00T N1将开源 ,机器人开发者可以用真实或合成数据进行后训练。
Isaac GR00T N1基础模型采用广义类人推理和技能进行了预训练,开发者可以通过进行后训练,使其满足特定的需求, 例如完成不同工厂生产线的特定任务以及自主完成不同的家务。
英伟达、谷歌DeepMind及迪士尼合作开发了开源物理引擎Newton,采用Isaac GR00T N1作为底座驱动了迪士尼BDX机器人。
人形机器人是AI时代下一个增长点, 从数据生成、基础大模型到算力 ,英伟达为开发者提供了全面支持。
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。