芯片巨头组团,向英伟达NVLink开战
本文来自微信公众号: 半导体行业观察 (ID:icbank) ,作者:编辑部
据最新消息披露,包括AMD、博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、英特尔(Intel)、Meta和微软(Microsoft)在内的八家公司宣告,他们已经为人工智能数据中心的网络制定了新的互联技术UALink(Ultra Accelerator Link)。通过为人工智能加速器之间的通信建立一个开放标准,以打破市场领导者Nvidia的垄断。
众所周知,英伟达是人工智能芯片市场最大的参与者,他们在GPU上拥有了绝对领先的份额。但其实除此以外,英伟达还拥有一系列技术,可用于在多个GPU和系统上扩展工作负载。其中包括其片上和封装互连、用于服务器或pod中GPU到GPU通信的NVLink、用于扩展pod之外的Infiniband以及用于连接到更广泛基础设施的以太网。
现在,该行业的其他公司正试图用开放标准进行反击,以争夺这些细分市场。去年,我们看到了Ultra Ethernet,它使用增强型以太网旨在取代Nvidia的InfiniBand高性能互连,后者已迅速成为连接GPU加速节点的事实标准,并且获得了丰厚的利润。
今年,我们将获得Ultra Accelerator Link或UALink,一项旨在取代Nvidia的NVLink协议和NVLink Switch(有时称为NVSwitch)内存结构新标准。在具体介绍UALink之前,我们先对Nvlink进行介绍。
英伟达的隐形护城河
过去,我们看到了很多有关英伟达GPU和CUDA护城河的介绍。诚然,经过多年的投入,他们已经建立起了难以逾越的优势。但除此以外,如上所述,英伟达还有很多隐形护城河,NVLink就是其中的一个,一个为GPU到GPU互联提供高速连接的技术。
在摩尔定律逐渐失效,但对算力要求越来越高的当下,这种互联显得尤为必要。
按照英伟达在官方网站中表示,NVLink是全球首创的高速GPU互连技术,为多GPU系统提供另一种选择,与传统的PCI-E解决方案相比,速度方面拥有显著提升。使用NVLink连接两张NVIDIA GPU,即可弹性调整记忆体与效能,满足专业视觉运算最高工作负载的需求。
相关资料显示,NVLink最初是一种将Nvidia GPU卡上的内存组合在一起的方法,最终Nvidia Research实现了一个交换机来驱动这些端口,允许Nvidia以杠铃拓扑(barbell topology)连接两个以上的GPU,或以十字交叉方形拓扑(crisscrossed square topology)连接四个GPU,这种拓扑几十年来通常用于创建基于CPU的双插槽和四插槽服务器。
几年前,AI系统需要八个或十六个GPU共享内存,以简化编程,并使这些GPU能够以内存速度(而不是网络速度)访问数据集。因此,实验室中的NVSwitch于2018年在基于“Volta”V100 GPU加速器的DGX-2平台上迅速商业化。
目前,NVLink可在GPU之间以每秒1.8 TB的速度传输数据。此外,还有一个NVLink机架级交换机,能够在无阻塞计算结构中支持多达576个完全连接的GPU。通过NVLink连接的GPU称为“pod”,表示它们有自己的数据和计算域。
其实除了Nvlink以外,还有两种连接GPU的方法,分别是PCI总线和Server-to-Server互联。据了解,标准服务器通常可以在PCI总线上支持4-8个GPU。通过使用GigaIO FabreX内存结构等技术,可以将这个数字增加到32个。
除此以外,以太网或InfiniBand可以连接包含GPU的服务器。这种连接级别通常称为横向扩展,其中较快的多GPU域通过较慢的网络连接以形成大型计算网络。
其实自从比特开始在机器之间移动以来,以太网一直是计算机网络的主力。最近,通过引入超级以太网联盟,该规范已被推动以提供高性能。事实上,英特尔已经在以太网上插上了互连旗帜,因为英特尔Gaudi-2 AI处理器在芯片上拥有24个100千兆以太网连接。
不过,Nvidia没有加入超级以太网联盟,因为他们在2019年3月收购Mellanox后,基本上独占了高性能InfiniBand互连市场。超级以太网联盟旨在成为其他所有人的“InfiniBand”。值得一提的是,英特尔曾经高举InfiniBand大旗。
因此在这种情况下,对于其他人来说,除了用于连接MI300A APU的AMD Infinity Fabric之外,没有其他选择。与InfiniBand/以太网的情况类似,需要某种“超级”竞争对手联盟来填补非Nvidia的“pod空缺”。而这正是UALink推出的重要原因。
什么是UALink?
超级加速器链(Ultra Accelerator Link,UALink)同样是一种可提高新一代AI/ML集群性能的高速加速器互连技术。八家发起厂商(和超级以太网联盟一样,我们也没有在UAlink联盟中看到英伟达的身影)也成立了一个开放行业标准机构来制定相关技术规范,以促进新使用模式所需的突破性性能,同时支持数据中心加速器用开放生态系统的发展。
在他们看来,发起这个标准很有必要。因为随着AI计算需求的增长,拥有稳健、低延迟且可高效纵向扩展的网络,从而轻松将计算资源添加到单个实例中至关重要。而针对纵向扩展功能制定开放的行业标准规范,有助于为AI工作负载创建开放的高性能环境,从而提供尽可能高的性能。
正是由于这个原因,UALink和行业规范对于新一代AI数据中心用AI和机器学习、HPC和云应用程序的接口标准化及其实现至关重要。该工作组将制定相应的规范来界定AI计算容器组中加速器与交换机之间进行纵向扩展通信所需的高速低延迟互连。
从相关资料可以看到,Ultra Accelerator Link联盟的核心于去年12月就已经建立,当时CPU和GPU制造商AMD和PCI-Express交换机制造商博通表示,博通未来的PCI-Express交换机将支持xGMI和Infinity Fabric协议,用于将其Instinct GPU内存相互连接,以及使用CPU NUMA链接的加载/存储内存语义将其内存连接到CPU主机的内存。相关消息显示,这将是未来的“Atlas 4”交换机,它将遵循PCI-Express 7.0规范,并于2025年上市。博通数据中心解决方案集团副总裁兼总经理Jas Tremblay证实,这项工作仍在进行中,但不要妄下结论。换而言之,我们不要以为PCI-Express是唯一的UALink传输,也不要以为xGMI是唯一的协议。
AMD为UALink项目贡献了范围更广的Infinity Fabric共享内存协议以及功能更有限且特定于GPU的xGMI,而所有其他参与者都同意使用Infinity Fabric作为加速器互连的标准协议。英特尔高级副总裁兼网络和边缘事业部总经理Sachin Katti表示,由AMD、博通、思科系统、谷歌、惠普企业、英特尔、Meta Platforms和微软组成的Ultra Accelerator Link“推动者小组”正在考虑使用以太网第1层传输层,并在其上采用Infinity Fabric,以便将GPU内存粘合到类似于CPU上的NUMA的巨大共享空间中。
如下图所示,我们分享了如何使用以太网将Pod链接到更大的集群:
如thenextplatform所说,没人期望将来自多个供应商的GPU连接到一个机箱内,甚至可能是一个机架或多个机架中的一个Pod内。但UALink联盟成员确实相信,系统制造商将创建使用UALink的机器,并允许在客户构建其舱时将来自许多参与者的加速器放入这些机器中。您可以有一个带有AMD GPU的Pod,一个带有Intel GPU的Pod,另一个带有来自任意数量的其他参与者的自定义加速器Pod。它允许在互连级别实现服务器设计的通用性,就像Meta Platforms和Microsoft发布的开放加速器模块(OAM)规范允许系统板上加速器插槽的通用性一样。
总而言之,UALink的一大优势是让业内其他所有人都有机会与NVIDIA保持同步。NVIDIA现在有能力制造NVSwitch盒并将这些NVSwitch托盘放入NVIDIA DGX GB200 NVL72等产品中。
英特尔今年的AI加速器销售额达数亿美元,这可能意味着它只卖出几万台加速器。AMD今年将销售数十亿美元的MI300X,但这仍然远不及NVIDIA的AI规模。拥有UALink允许像Broadcom这样的公司制造UALink交换机来帮助其他公司扩大规模,然后在多家公司的加速器上使用这些交换机。
我们已经报道了Broadcom Atlas交换机计划与AMD Infinity Fabric AFL Scale Up竞争NVIDIA NVLink即将出现在PCIe Gen7中的Broadcom交换机上。我们在简报中被告知,这些可能会实现UALink的V1.0。当然,UALink V1.0规范尚未出台。
他们表示,1.0版的规范将允许在AI容器组中连接不超过1,024个加速器,支持在容器组中挂载到加速器(例如GPU)的内存之间进行直接加载和存储。UALink发起人工作组已经成立了UALink联盟,预计将在2024年第三季度正式成立。1.0版规范预计将于2024年第三季度推出,并向参加超级加速器链(UALink)联盟的公司开放。
CXL怎么办?
其实在过去几年,行业参与者已经承诺过在PCI-Express结构上运行的Compute Express Link(CXL)协议将提供同样的功能。例如CXLmem子集就已经提供了CPU和GPU之间的内存共享吗。
但在分析人士看来,PCI-Express和CXL是更广泛的传输和协议。
Katti指出,AI加速器模块的内存域比CPU集群的内存域大得多,我们知道CPU集群的扩展范围从2个到4个,有时到8个,很少到16个计算引擎。许多人认为,AI加速器的GPU模块可扩展到数百个计算引擎,并且需要扩展到数千个。更重要的是,与CPU NUMA集群不同,GPU集群(尤其是运行AI工作负载的集群)对内存延迟的容忍度更高。
为此The Next Platform表示,我们不要指望看到UALinks将CPU捆绑在一起,但没有理由相信未来的CXL链接最终不会成为CPU共享内存的标准方式——甚至可能跨越不同的架构。
这实际上是为了打破NVLink在互连结构内存语义方面的垄断。无论Nvidia如何使用NVLink和NVSwitch,它的几家竞争对手都需要为潜在客户提供可靠的替代方案——无论他们是销售GPU还是其他类型的加速器或整个系统——这些潜在客户肯定希望为AI服务器节点和机架式设备提供比Nvidia互连更开放、更便宜的替代方案。
“当我们审视整个数据中心对AI系统的需求时,有一点非常明显,那就是AI模型继续大规模增长,”AMD数据中心解决方案事业部总经理Forrest Norrod说道。“每个人都可以看到,这意味着对于最先进的模型,许多加速器需要协同工作以进行推理或训练。能够扩展这些加速器对于推动未来大规模系统的效率、性能和经济性至关重要。扩展有几个不同的方面,但Ultra Accelerator Link的所有支持者都非常强烈地感受到,行业需要一个可以快速推进的开放标准,一个允许多家公司为整个生态系统增加价值的开放标准。并且允许创新不受任何一家公司的束缚而快速进行。”
毫无疑问,AMD Forrest Norrod说的这家公司就是Nvidia,他们通过投资了InfiniBand,并创建了具有绝对超大网络带宽的NVSwitch来为GPU进行NUMA集群。当然,他们最初这样做的是因为PCI-Express交换机在总带宽方面仍然有限。
有趣的是,UALink 1.0规范将在今年第三季度完成,届时Ultra Accelerator Consortium也将加入进来,拥有知识产权并推动UALink标准的发展。今年第四季度,UALink 1.1更新将发布,这将进一步提高规模和性能。目前尚不清楚1.0和1.1 UALink规范将支持哪些传输,或者哪些将支持PCI-Express或以太网传输。
使用NVLink 4端口的NVSwitch 3结构理论上可以在共享内存pod中跨越多达256个GPU,但Nvidia的商业产品仅支持8个GPU。借助NVSwitch 4和NVLink 5端口,Nvidia理论上可以支持跨越多达576个GPU的pod,但实际上,商业支持仅在DGX B200 NVL72系统中最多72个GPU的机器上提供。
如今,许多公司都在尝试采用标准PCIe交换机并构建基于PCIe的结构以扩展到更多加速器。业内大公司似乎将此视为权宜之计。相反,NVIDIA的NVLink更像是业内扩展的黄金标准。
现在,UAlink团队正准备发布专有NVLink的公开竞争对手。
所有这些都需要时间。记者在简报会上问这是否是一个2026年左右的实施目标。2024年还太早,即使它被融入到产品中,目前也不太可能成为2025年初的产品。如果你看看CXL或UCIe,这些标准需要很长时间才能最终成为产品。2026年将是一个快速实施的时间。
对于AMD和英特尔等公司来说,这提供了一条复制NVLink和NVSwitch功能并与其他公司共享开发成果的途径。像博通这样的公司很可能是最大的赢家,因为它定位为非NVIDIA系统的连接提供商,无论是用于纵向扩展还是横向扩展。无论是AMD还是英特尔获胜,博通都在销售连接。对于超大规模企业来说,无论谁制造端点,投资标准化结构的能力都非常有意义。
顺便说一句,在2019-2020年期间,行业考虑将CXL in-box和Gen-Z作为扩展解决方案。许多当年展示Gen-Z的人现在都在AMD工作,就像AMD多年来一直在组建一支团队,他们看到并一直在努力解决扩展挑战。
希望我们能够尽快看到UALink投入使用。对啦,多说一句,貌似没有看到Marvell的身影?
参考链接
s://www.businesswire.com/news/home/20240530795219/zh-CNs://www.nextplatform.com/2024/05/30/key-hyperscalers-and-chip-makers-gang-up-on-nvidias-nvswitch-interconnect/s://www.servethehome.com/ualink-will-be-the-nvlink-standard-backed-by-amd-intel-broadcom-cisco-and-more/