硅光照亮数据中心网络可持续发展之路
摘要:
近年来低碳节能的话题被越来越多的人关注,国家的双碳政策及部分省市的限电行动,都表示对碳排放的高度重视。本文聚焦数据中心网络迭代过程中,数据中心交换机的关键组件遇到了功耗难题,从多种交换机硅光技术出发,结合锐捷网络的实践,我们尝试提出一条数据中心网络可持续发展的技术路线建议。
正文:
随着 互联网 技术的发展,数据中心逐步转型为“算力中心”。人工智能、机器学习等高算力应用发展迅猛,无人驾驶 汽车 、大数据推流、兴趣电商等多样化业务层出不穷。而作为基础架构支撑人工智能、机器学习这类应用的GPU(Graphics Processing Unit,图形处理器)计算集群,相比于CPU(central processing unit,中央处理器)通用计算集群对网络传输提出了更高要求,这就是我们常说的“业务驱动网络迭代”的演进模式。在该模式下,网络迭代在GPU高性能场景先行,满足塔尖业务需求;再逐步赋能到通用场景,充分发挥技术价值红利。
图1:数据中心网络架构示意图
除了来自业务的直接压力,数据中心其他设施为了满足功能需求而进行的升级,也在无形中“驱赶”着网络设备的迭代。如搭载下一代H100的GPU服务器,对网络的接入带宽已上升到400G的要求;下一代CX7的智能网卡,也要求网络接入交换机支持PAM4-112G SerDes(串行/解穿串行器)。
在业务和硬件革新的双重驱动下,数据中心网络架构升级势在必行。而要想顺利完成迭代,交换芯片、SerDes和光模块三个层面的技术需要协同演进,缺一不可。不难想象,这条技术演进之路将会阻碍重重,其中功耗问题尤其难解。
图2:驱动数据中心网络迭代升级的因素及功耗挑战
先从决定交换机性能的交换机芯片来看,随着交换机芯片的升级,单Bit(比特)的功耗随之降低,但因为交换带宽提升,交换机芯片总功耗在数据中心的占比逐年增长。除交换芯片外,SerDes和光模块也是功耗增加的主要元素。据数据统计, 2022年单交换机的总体功耗是2010年单交换机功耗的22倍,其中交换芯片SerDes功耗增长25倍,光模块的功耗增长26倍。
图3:2020 Cisco and/or its affiliates. All rights reserved. Cisco Public
聚焦光模块的演进来看,2007年万兆的光模块功耗小于1W,但随着40G、100G到现在的400G,800G甚至未来1.6T光模块,功耗提升的比例越来越大,甚至快要接近30W,如果是满载1.6T光模块的交换机,功耗将不可想象。
因此,传统可插拔光模块的技术演进难以支撑数据中心的可持续发展,主要体现在以下四个方面:
图4:传统可插拔光模块技术发展的瓶颈
首先是SI(电传输)的实现遇到了材料的瓶颈,基于PCB(Printed Circuit Board印制电路板)传输高速电信号,在应用传统可插拔光模块时,信号传输距离长,传输损失大,对SI实现挑战大,更低损耗的可量产PCB材料也面临诸多技术困难。其次是功耗问题,满载1.6T模块的设备,整机功耗巨大,对散热设计包括机柜供电的挑战巨大。随功耗的提升,整机的设备成本包括风火水电的周边配套实施成本也相应增加,会增大网络建设初期的投入。最后是产品设计的问题,使用传统可插拔光模块的系统,支持128个端口需要非常复杂的系统设计,还需要解决诸如高功率光模块散热等技术问题,推高了系统成本。
综上,从交换芯片、SerDes及光模块技术在数据中心网络架构迭代中遇到的功耗问题出发,锐捷网络以建设下一代绿色节能可持续发展的数据中心为目标,基于客户业务场景和产品实践,给出了数据中心网络可持续发展的创新解法及技术路线建议,具体分三层:
底层是架构升级,基于下一代芯片、SerDes及光模块技术实现网络架构升级迭代去满足人工智能、机器学习等应用对带宽持续增大的需求。在架构升级基础上,从网络设备出发,尝试解决当前SerDes及光模块的功耗难题。但问题并不是只在这一代才发生,未来的每一代网络架构都会面临相同的问题,因此需要面向未来,探索出一条数据中心网络低成本、低功耗的可持续发展路线。
图5:下一代绿色节能可持续发展数据中心的建设目标
具体这条可持续发展的技术路线,可以从交换机硅光技术发展的两个阶段实现。第一阶段是NPO(Near packaged optics近封装光学)技术阶段,可以在CPO(Co-packaged optics,共封装光学)生态完备之前,在最短时间内享受到低成本、低功耗的收益。第二阶段是CPO技术阶段,这是交换机硅光技术的最终形态,可以极限降低网络的成本和功耗。
图6:数据中心网络可持续发展技术路线建议
光引擎承载了交换网络的光电转换功能,最常见的是Pluggable(可插拔)形态,随着技术的演进,又产生了新的产品形态。CPO形态是将交换芯片和光引擎共同装配在同一个Socketed(插槽)上,形成芯片和模组的共封装。NPO形态则是光引擎与交换芯片解耦,装配在同一块系统主版上。虽然两者都有光电模组,但封装的位置是不同的,对应的走线距离也会有些差异,相应功耗也不同。
图7:硅光技术形态概览
CPO架构是基于硅光技术实现最高集成度的形态,预期也能获得最优的成本及功耗收益。CPO架构降功耗的核心原理是通过共封装形式大幅缩短交换芯片和光引擎间的布线距离(走线可控制在50~70mm左右),进而降低SerDes的驱动功耗成本,同时可实现更高密度的高速端口,提升整机的带宽密度,实现大幅降低功耗。长远来看,因为芯片和硅光组件的共封装的更高集成及硅光技术生态的不完备,从 商业 化角度上来看开放性是长期的目标。
图8:CPO架构示意图
图9:CPO降功耗原理图
交换机的另一种实现架构是NPO,基于硅光技术的高集成度和开放的生态,可以获得成本及功耗的最快收益。NPO的技术原理是通过开放的光引擎接口,与交换芯片共同组装在同一块主板,以标准化架构的方式实现了光引擎和芯片的解耦,可以灵活对交换芯片和NPO模块进行选型。NPO在收益方面虽然不如CPO架构对功耗和成本降低的明显,但在开放性层面是有所提升的。随着NPO产业链的日益成熟,预计到24年会有商用的CPO模组。锐捷网络作为OIF(光互联网OIF论坛)成员之一,也在NPO交换机方向持续进行探索与实践。
图10:NPO架构示意图
2021年11月,锐捷网络应邀参加全球OCP峰会。在峰会现场,锐捷网络正式发布了25.6T硅光NPO冷板式液冷交换机,满足数据中心和运营商网络的高可靠性的要求。
图11:锐捷网络25.6T硅光NPO冷板式液冷交换机
锐捷网络25.6T硅光NPO冷板式液冷交换机,基于最新的112G Serdes交换芯片,采用64个连接器,在1RU的空间内,实现了64口400G的超高密度端口设计;由16个1.6T(4×400G DR4)的NPO模块组成,支持8个ELS/RLS(外置激光源模块),PCB上ASIC到光模块布线距离缩短60%-70%,高速信号质量大幅改善。整机采用x86 CPU,3+1的风扇模块,1+1 电源模块冗余,核心区域采用冷板散热,使用非导电冷却液,彻底杜绝漏液短路风险,能很好为数据中心网络可持续发展提供支撑。
图12:锐捷网络网络25.6T硅光NPO冷板式液冷交换机
2022年,锐捷网络在OFC2022最新发布的51.2T硅光NPO冷板式液冷交换机,是基于51.2T交换机芯片的800G NPO结构原型机。同样是1RU的高度,51.2T 交换机将NPO模组从1.6T升级到了3.2T,前面板支持64个800G连接器,每个连接器还可以分成2个400G端口,实现向前兼容。外置光源模块增加到了16个,由于采用了Blind-mate设计,避免了高功率激光对人眼的伤害,显著改善了运维人员的安全。散热方面,交换机芯片和NPO模块同样支持冷板冷却方式,实现高效散热,解决热流密度高度集中的难题,对比同性能、传统可插拔光模块+风冷方案的交换机,功耗大幅降低。
图13:锐捷网络51.2T硅光NPO冷板式液冷交换机
NPO交换机的应用场景非常广泛,锐捷网络研发的51.2T的NPO交换机可以应用于下一代超大规模400G网络,作为Leaf&Spine设备实现高速骨干互联,我们最快在2023年底可以实现商业化发布,帮助客户在最快时间内享受功耗和成本降低的价值红利。
图14:基于NPO交换机的下一代网络架构设计
锐捷网络现在已经走向国际,作为OIF/COBO的成员,会定期参与硅光相关工作组全球会议,力图为全球的技术进步贡献一份力量。未来,锐捷网络会在硅光方向上继续践行这条可持续发展之路,研发出更多产品帮助客户实现绿色节能。
图15:OIF工作组全球会议现场