康普观点:数据中心如何更快、更经济地利用AI
康普北亚区技术总监 吴健
人气科幻小说在描绘“机器智能的崛起”时,通常伴随着激光、爆炸等场景,就算不是这般震撼,至少也会带有些许哲学上的恐惧意味。但毋庸置疑的是,人们日益关注人工智能(AI)和机器学习(ML)在更广泛应用中的可能性,而且新的应用也层出不穷。
目前,数百万人已经开始通过 ChatGPT 和其他AI界面来尝试这些想法。但这些用户中的许多人并没有意识到,他们通过电脑屏幕与富有好奇心的AI助手之间的交流实际上是由位于全球各地的大型数据中心驱动的。
企业也在其数据中心内 投资 建立自己的AI集群,构建、训练并完善自己的AI模型,以满足其自身 商业 利益。这些AI的核心就是由大量 GPU(图形处理器)机架所构成的,其可提供AI模型所需的惊人的并行处理能力,以便对其算法进行详尽的训练。
在导入数据集后,AI推理会对数据进行分析,并阐释其中蕴含的意义。例如,基于猫与狗特征差异进行训练,就能识别出图片中呈现的是猫还是狗。然后,生成式AI就可以对此数据进行处理,以创建全新的图像或文本。
正是这种“智能”的处理吸引着全球各地的人们、政府和企业发挥想象力。据IDC最新发布的《全球人工智能支出指南》预计,2027年中国AI投资规模有望达到381亿美元,全球占比约9%。近年来,本土人工智能产业向高质量发展迈进,并加速与各行业的不同需求的融合落地。然而,创建一个有用的AI算法需要大量的数据用于训练,而这是一个成本高昂且耗能的过程。
“智能”源自高效的训练
数据中心一般都有着离散式的AI和计算集群,他们协同工作以提供训练AI算法的数据。这些高能耗 GPU 产生的热量限制了在给定机架空间内能够安装GPU的数量,因此必须优化物理布局。另一个令人担忧的问题是,光纤线缆线路过长会增加插入损耗。
光纤是一种高效、低损耗、低延迟的基础设施,AI集群的运行速度可达 100G 或 400G。然而,随着大量数据在AI集群中传输,每增加一米光纤布线,都会带来成本高昂的延迟和损耗。
一般认为,训练大规模AI所需的时间中,约有三成消耗在网络延迟上,其余七成用于计算时间。任何减少延迟的机会,哪怕是通过减少 10 米光纤来减少 50 纳秒的延迟,都能节省大量的时间和成本。考虑到训练这样一个大型AI模型动辄需要花费 1000 万美元或更多,延迟的代价就非常明显了。
缩减光纤米数、延迟纳秒数和功耗瓦数
运营商应仔细考虑在AI集群中使用哪些光收发器和光缆,以最大限度地降低成本和功耗。由于光纤运行必须尽可能短,因此光学成本将取决于收发器。使用并行光纤的收发器的优势在于其无需用于波分复用的光复用器和解复用器。因此,使用并行光纤的收发器成本和功耗都更低。收发器成本的节省足以抵消多芯光缆(而非双工光缆)成本的小幅增加。例如,使用8芯光缆的 400G-DR4 收发器比使用双工光缆的 400G-FR4 收发器更具成本效益。
单模光纤和多模光纤应用可支持长达 100 米的链路。硅光等技术的进步降低了单模收发器的成本,使其接近同等多模收发器的成本。对于高速收发器(400G +)而言,单模收发器的成本往往是同等多模收发器成本的两倍。虽然多模光纤的成本略高于单模光纤,但由于多模光纤线缆成本主要取决于 MPO 连接器,因此多模和单模之间的线缆成本差异较小。
此外,高速多模收发器的功耗比单模收发器低一到两瓦。单一AI集群中最多有 768 个收发器,使用多模光纤的设置将节省高达 1.5 千瓦的功率。与每台 GPU 服务器 10 千瓦的功耗相比,这似乎微不足道,但对于AI集群而言,任何节省功耗的机会都能在AI训练和运行过程中节省大量费用。
收发器与AOC
许多 AI/ML 集群和 HPC 使用有源光缆(AOC)来实现 GPU 和交换机之间的互连。有源光缆是一种设备直连线缆,两端集成了光发射器和接收器。大多数有源光缆用于短距离传输,其通常使用多模光纤和 VCSEL光源。高速(>40G)有源光缆和连接光收发器的光缆相同,使用的都是 OM3 或 OM4 光纤。AOC 中的发射器和接收器可能与同类收发器中的发射器和接收器相同,但它们不一定适合所有场合使用。每个发射器和接收器都不需要满足严格的互操作性规范,它们只需要与连接到光缆另一端的特定设备一同运行即可。由于安装人员无法接触到光纤连接器,因此无需具备清洁和检查光纤连接器的技能。
AOC 的缺点是不具备收发器能提供的灵活性。安装 AOC 需要耗费大量时间,因为必须在连接着收发器的情况下布线。正确安装带分支的 AOC 尤其具有挑战性。AOC 的故障率是同等收发器的两倍。当 AOC 出现故障时,新的 AOC 必须通过网络来布线,这也就占用了计算时间。最后,当需要升级网络链路时,必须移除 AOC 并用新的 AOC 取而代之。对于收发器,光纤布线是基础设施的一部分,并且可以在几代数据速率下保持不变。
结论
AI/ML 已经到来,并将成为人、企业和设备之间交互方式中更重要、更集成的一部分。但不可否认的是,虽然与AI服务的交互可以在 手机 上实现,但它仍然依赖于大型数据中心基础设施和算力的驱动,而能够快速高效地训练AI的企业将在当前瞬息万变、超级互联的世界中占据重要的一席之地。如若当下投资于先进的光纤基础设施以推动AI的训练和运行,日后就会收获令人难以置信的成果。