性能提升1000倍!英伟达推出“全球最强”AI芯片
当地时间3月18日,英伟达2024年GTC AI大会开幕,此次会议是GTC大会时隔五年首次重回线下。英伟达CEO黄仁勋发表名为“见证AI的变革时刻”的主题演讲。
英伟达正式公布了搭载B200芯片的GB200GraceBlackwell超级芯片系统,以及多模态人形机器人模型及机器人芯片、英伟达在AI软件(NIM微服务)、Omiverse云、具身智能方面的最新进展。
01
下一代AI平台:Blackwell
大会上,英伟达推出新一代AI图形处理器芯片(GPU)架构Blackwell,并重磅发布采用该架构的GPU——B200和GB200产品系列。
在演讲中,黄仁勋将Blackwell称为“推动新一轮工业革命的引擎”,并定义其为一个平台,基于Blackwell,衍生出GPU、AI超级芯片、服务器、大型计算集群、云服务等多套解决方案。
英伟达称,Blackwell 拥有六项革命性的技术,可以支持多达 10 万亿参数的模型进行 AI 训练和实时 LLM 推理:
全球最强大的芯片:Blackwell 架构 GPU 由 2080 亿个晶体管组成,采用量身定制的台积电 4 纳米(nm)工艺制造,两个 reticle 极限 GPU 裸片将 10 TB/ 秒的芯片到芯片链路连接成单个统一的 GPU 。
第二代 Transformer 引擎:结合了 Blackwell Tensor Core 技术和 TensorRT-LLM 和 NeMo Megatron 框架中的 英伟达先进动态范围管理算法,Blackwell 将通过新的 4 位浮点 AI 支持双倍的计算和模型大小推理能力。
第五代 NVLink:为提高数万亿参数和混合专家 AI 模型的性能,最新一代英伟达 NVLink 为每个 GPU 提供了突破性的 1.8TB/s 双向吞吐量,确保最复杂 LLM 之间多达 576 个 GPU 之间的无缝高速通信。
RAS 引擎 :Blackwell 支持的 GPU 包含一个专用引擎,实现可靠性、可用性和服务性。此外,Blackwell 架构还增加了芯片级功能,利用基于 AI 的预防性维护进行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间,并提高大部署规模 AI 的弹性,使其能连续运行数周甚至数月,并降低运营成本。
安全人工智能:先进的机密计算功能可在不影响性能的情况下保护 AI 模型和客户数据,并支持新的本机接口加密协议,这对于医疗保健和金融服务等隐私敏感行业至关重要。
解压缩引擎:专用解压缩引擎支持最新格式,加快数据库查询,提供数据分析和数据科学的最高性能。未来几年,在企业每年花费数百亿美元的数据处理方面,将越来越多地由 GPU 加速。
英伟达称,亚马逊云 AWS、谷歌云、微软云 Azure 和甲骨文云基础设施 Oracle Cloud Infrastructure 将成为首批提供 Blackwell 支持实例的云服务提供商,英伟达云合作伙伴计划的成员公司 Applied Digital、CoreWeave、Crusoe、IBM Cloud 和 Lambda 也将成为首批提供 Blackwell 实例的云服务提供商。
新GPU架构“Blackwell”得名于美国数学家David Harold Blackwell,基于该架构的GPU芯片B200采用台积电4NP制造工艺,英伟达称其可实现在十万亿级参数模型上的AI训练和实时LLM(大语言模型)推理。
B200由两个超大型Die(裸片)封装组合而成,内含超过2080亿个晶体管,是前一代800亿个晶体管的两倍以上,整块芯片还封装有192GB高速HBM3e显存。
黄仁勋用一句话描述了B200相对于前代产品的更新之处:“这是块非常非常大的GPU。”
“大”既体现在尺寸:Blackwell GPU的体积明显大于H100,采用台积电的4纳米工艺蚀刻而成,整合了两个独立制造的裸晶,共有2080亿个晶体管,而H100芯片所拥有的晶体管数量为800亿个;“大”也体现在性能:单块B200 GPU能够提供高达20 PetaFlops(每秒千万亿次浮点运算)的FP4八精度浮点运算能力,而H100则能提供4 petaflops的FP4八精度浮点运算能力。
黄仁勋手持Blackwell GPU和上一代Hopper GPU供观众对比,明显前者要大上一圈。黄仁勋称,8年时间,英伟达从Pascal架构到Blackwell架构,将AI计算性能提升了1000倍!
02
GPU新核弹:GB200
此外,英伟达还“大大加倍”,提供集成了两块B200 GPU和一块Grace CPU的加速卡“GB200”。
据介绍,GB200 Grace Blackwell Superchip集成了1个Grace CPU和2个B200 GPU,号称是全世界最强大的Grace超级芯片。
为了获得最高的 AI 性能,GB200 驱动的系统可以与周一同时宣布的英伟达 Quantum-X800 InfiniBand 和 Spectrum-X800 以太网平台连接,这些平台可提供速度高达 800Gb/s 的高级网络。
GB200 是英伟达 GB200 NVL72 的关键组件,GB200 NVL72 是一种多节点、液冷、机架规模系统,适用于计算最密集的工作负载。它结合了 36 个 Grace Blackwell 超级芯片,其中包括通过第五代 NVLink 互连的 72 个 Blackwell GPU 和 36 个 Grace CPU。GB200 NVL72 还包括 NVIDIA BlueField?-3 数据处理单元,可在超大规模 AI 云中实现云网络加速、可组合存储、零信任安全性和 GPU 计算弹性。
GB200 NVL72 对于 LLM 推理工作负载的性能提升高达 30 倍,并将成本和能耗降低高达 25 倍。GB200 NVL72 平台充当单个 GPU 具有 1.4 exaflops 的 AI 性能和 30TB 的快速内存,是最新 DGX SuperPOD 的构建块。
英伟达推出服务器主板 HGX B200,它通过 NVLink 连接八个 B200 GPU,以支持基于 x86 的生成式 AI 平台。HGX B200 通过英伟达 Quantum-2 InfiniBand 和 Spectrum-X 以太网网络平台支持高达 400Gb/s 的网络速度。
英伟达没有提供新款GB200或其使用系统的成本。据分析师估计,英伟达基于Hopper的H100芯片成本在2.5万至4万美元之间,而整个系统的成本高达20万美元。
03
下一代AI超级计算机:DGX SuperPOD
英伟达还发布了新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的NVIDIA DGX SuperPOD 。这台 AI 超级计算机可以用于处理万亿参数模型,能够保证超大规模生成式 AI 训练和推理工作负载的持续运行。
全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构,基于 NVIDIA DGX GB200 系统构建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超级计算性能和 240 TB 的快速显存,且可通过增加机架来扩展性能。
与 NVIDIA H100 Tensor Core GPU 相比,GB200 超级芯片在大语言模型推理工作负载方面的性能提升了高达 30 倍。
“NVIDIA DGX AI 超级计算机是推进 AI 产业变革的工厂。新一代DGX SuperPOD 集 NVIDIA 加速计算、网络和软件方面的最新进展于一体,能够帮助每一个企业、行业和国家完善并生成自己的 AI。”黄仁勋表示。
Grace Blackwell 架构的 DGX SuperPOD 由 8 个或以上的 DGX GB200 系统构建而成,这些系统通过 NVIDIA Quantum InfiniBand 网络连接,可扩展到数万个 GB200 超级芯片。用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,从而获得海量共享显存空间,来赋能下一代 AI 模型。
04
AI超级计算平台:DGX B200
英伟达还发布了用于AI模型训练、调优和推理的通用AI超级计算平台NVIDIA DGX B200 系统,这是DGX系列的第六代产品。
采用Blackwell架构的全新 DGX B200系统,包含8颗 NVIDIA B200 Tensor Core GPU和2颗第五代英特尔至强处理器。此外,还包含带有8个NVIDIA ConnectX-7网卡和2颗BlueField-3 DPU的高性能网络,每个连接的带宽高达400 Gb/s,可通过Quantum-2 InfiniBand和Spectrum-X以太网网络平台支持更高的 AI 性能。
凭借全新 Blackwell架构中的FP4精度特性,DGX B200系统可提供高达144 petaflops的 AI性能、1.4TB 海量的GPU显存和64TB/s的显存带宽,从而使得该系统的万亿参数模型实时推理速度比上一代产品提升了15倍。
05
AI微服务:企业AI的入口
“成熟的企业平台坐拥数据金矿,这些数据可以转化为生成式 AI 助手。我们与合作伙伴生态系统一起创建的这些容器化 AI 微服务,是各行业企业成为 AI 公司的基石。”黄仁勋表示。
为此,英伟达推出生成式 AI 微服务,供开发者在已安装 NVIDIA CUDA GPU 的系统中创建和部署生成式 AI 助手
英伟达推出数十项企业级生成式 AI 微服务,企业可以利用这些微服务在自己的平台上创建和部署定制应用,同时保留对知识产权的完整所有权和控制权。
英伟达还推出二十多项全新微服务,使全球医疗企业能够在任何地点和任何云上充分利用生成式 AI 的最新进展。
全新 NVIDIA 医疗微服务套件包含经过优化的 NVIDIA NIM AI 模型和工作流,并提供行业标准应用编程接口(API),可用于创建和部署云原生应用。它们提供先进的医学影像、自然语言和语音识别以及数字生物学生成、预测和模拟功能。
此外,NVIDIA 加速的软件开发套件和工具,包括 Parabricks 、MONAI、NeMo 、Riva、Metropolis,现已通过 NVIDIA CUDA-X 微服务提供访问,以加速药物研发、医学影像、基因组学分析等医疗工作流。
这些微服务,其中 25 个已推出,可以加快医疗企业的转型,因为生成式 AI 为制药公司、医生和医院带来了众多的机会。其中包括筛选数万亿种药物化合物以促进医学发展、收集更完善的患者数据以改进早期疾病检测、实现更智能的数字助手等。
06
X800系列:专为大规模AI量身订制
英伟达还发布了专为大规模 AI 量身订制的全新网络交换机 - X800 系列。
NVIDIA Quantum-X800 InfiniBand 网络和 NVIDIA Spectrum -X800 以太网络是全球首批高达 800Gb/s 端到端吞吐量的网络平台,将计算和 AI 工作负载的网络性能提升到了一个新的水平,与其配套软件强强联手可进一步加速各种数据中心中的 AI、云、数据处理和高性能计算(HPC)应用,包括基于最新的 NVIDIA Blackwell 架构产品的数据中心。
“NVIDIA 网络平台是 AI 超级计算基础设施实现大规模可扩展的核心。基于 NVIDIA X800 交换机的端到端网络平台,使新型 AI 基础设施轻松运行万亿参数级生成式 AI 业务。”NVIDIA 网络高级副总裁 Gilad Shainer 表示。
Quantum-X800 平台包含了 NVIDIA Quantum Q3400 交换机和 NVIDIA ConnectX -8 SuperNIC,二者互连达到了业界领先的端到端 800Gb/s 吞吐量,交换带宽容量较上一代产品提高了 5 倍,网络计算能力更是凭借 NVIDIA 的 SHARP 技术(SHARPv4)提高了 9 倍,达到了 14.4Tflops。
Spectrum-X800 平台为 AI 云和企业级基础设施带来优化的网络性能。借助 800Gb/s 的 Spectrum SN5600 交换机和 NVIDIA BlueField-3 SuperNIC,Spectrum-X800 平台为多租户生成式 AI 云和大型企业级用户提供各种至关重要的先进功能。
NVIDIA 提供面向万亿参数级 AI 模型性能优化的网络加速通信库、软件开发套件和管理软件等全套软件方案。
07
Omniverse牵手苹果Vision Pro
大会上,令人印象深刻的还有英伟达Omniverse与苹果Vision Pro的“强强联合”。
在今年的GTC上,英伟达宣布,企业级数字孪生和沉浸式内容创建中心Omniverse将在Apple Vision Pro上首次亮相。通过英伟达Omniverse的云API和图形交付网络 (GDN),企业现在将可以轻松将3D应用的OpenUSD(交互式通用场景描述)实时串流到Vision Pro混合头显中。
这种基于Omniverse的新工作流程将Apple Vision Pro突破性的高分辨率显示器与英伟达强大的 RTX 云渲染相结合,只需设备和互联网连接即可提供空间计算体验。通过利用云软件和硬件组件的框架,英伟达还能确保企业客户可以在Vision Pro设备上利用数字孪生,而不会损失显示或帧率质量。
这意味着设计人员可以更加值得信赖方式与进行混合现实交互,为空间计算开辟了更大的想象空间。英伟达表示,对于开发人员和独立软件供应商,他们也正在构建更多功能使他们能够使用Vision Pro与应用程序中的现有数据无缝交互。
08
下一个变革:机器人
“开发通用人形机器人基础模型是当今 AI 领域中最令人兴奋的课题之一。世界各地的机器人技术领导者正在汇集各种赋能技术,致力于在人工通用机器人领域实现突破。”黄仁勋表示。
在大会的最后,英伟达发布了人形机器人通用基础模型Project GR00T,旨在进一步推动其在机器人和具身智能方面的突破。GR00T驱动的机器人将能够理解自然语言,并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能,以便导航、适应现实世界并与之互动。
英伟达还发布了一款基于NVIDIA Thor 系统级芯片(SoC)的新型人形机器人计算机Jetson Thor,并对NVIDIA Isaac 机器人平台进行了重大升级,包括生成式 AI 基础模型和仿真工具,以及 AI 工作流基础设施。
Jetson Thor 是一个全新的计算平台,能够执行复杂的任务并安全、自然地与人和机器交互,具有针对性能、功耗和尺寸优化的模块化架构。
该SoC包括一个带有 transformer engine 的下一代 GPU,其采用 NVIDIA Blackwell 架构,可提供每秒 800 万亿次8位浮点运算 AI 性能,以运行 GR00T 等多模态生成式 AI 模型。凭借集成的功能安全处理器、高性能 CPU 集群和 100GB 以太网带宽,大大简化了设计和集成工作。
据悉,英伟达正在为领先的人形机器人公司开发一个综合的 AI 平台,如 1X Technologies、Agility Robotics、Apptronik、波士顿动力公司、Figure AI、傅利叶智能、Sanctuary AI、宇树科技和小鹏鹏行等。
09
英伟达芯片能火多久
从性能炸裂的全新超级芯片到软件、行业应用和机器人模型,用“AI春晚”来形容今年的英伟达GTC毫不夸张。
此前2月,英伟达发布了截至1月28日的2024财年第四财季财报。期内实现营收221亿美元,同比增长265%;净利润达123亿美元,同比上涨769%;毛利率为76%。三项数据均高于市场分析师预测,并创下历史新高。
经济日报发表文章《英伟达芯片能火多久》指出,“从当前的种种迹象来看,远未结束。”此前,不少投资者担忧英伟达人工智能芯片供不应求的局面难以持续,以至于无法支撑其不断攀升的股价。财报发布后,英伟达股价再度大涨,创下历史新高。资本市场用这种方式给出了自己的观点:这样的担忧纯属多虑。
面对英伟达出色的经营数据,众多投资分析师不断上调对英伟达表现和市场需求的预期。
券商伯恩斯坦分析师斯泰西·拉斯冈表示,英伟达在数据中心业务方面的机会巨大,而且还处于早期阶段。黄仁勋在财报电话会上回答分析师提问时也表示,英伟达的人工智能芯片将在2024年乃至2025年以后依然拥有较高的市场需求。因为计算机行业正处于加速计算与生成式人工智能转型的开端,全球各行业的相关需求正在激增,将推动全球数据中心基础设施安装量在未来5年内翻一番。
经济日报文章认为,此番预测中的具体数据尚难以验证,但人工智能将成为新的技术革命已经成为各行各业的共识,推动着芯片产品需求居高不下。
责任编辑:张薇