液冷服务器年增305%:AI大模型再创新需求?
本文来自微信公众号: 与非网eefocus(ID:ee-focus) ,作者:张慧娟,原文标题:《增速305.2%,这项技术因何称雄数据中心?》,题图来自:视觉中国
数据的爆发式增长对数据中心提出新要求, 特别是高算力AI芯片的导入,进一步加速了服务器高功率密度的演进趋势。
据中国数据中心工作组 (CDCC) 调研,国内全行业数据中心,8kW功率密度以上的机柜占比由2021年的11%提升至了2022年的25%,高功率机柜占比明显提升。而随着AI模型训练、推理等应用增加,多样化算力协同成为常态,单IT机柜主流功率密度将从6~8kW/柜提高到12~15KW/柜,超算、智算中心功率密度将提升至30kW以上。
急剧增长的机柜密度面前,散热成为迫在眉睫的问题。 特别是“双碳”目标下,节能减排、高质量发展成为共识, 多地明确提出加大数据中心节能改造力度。
液冷服务器,去年增速305.2%
风冷技术是数据中心当前最为成熟、应用最为广泛的冷却方案之一,它通过冷/热空气通道的交替排列实现换热。不过,风冷技术存在 低密度和相对较低的散热能力 的不足,对于高性能计算应用尤为明显。此外, 风冷技术存在容易过度冷却、环境匹配性较弱、占用空间大等不足。 随着高功率单机柜快速普及,推动液冷变革势在必行。
如果采用风冷散热,通常要把单机柜功率控制在12kW以内,以确保散热系统能够为IT设备提供合适的工作温度。但是,随着服务器单位功耗不断增大,单机柜功率15kW基本成为空气对流散热能力的天花板,一旦超越这一数值,处于高温状态工作的 IT 设备将出现运行不稳、加剧老化甚至频繁宕机等后果。
与传统风冷技术相比,液冷具有 降低能耗、维持系统性能稳定以及支持更高功率处理器 的优势,它通过液体代替空气,把 CPU、内存等发热器件产生的热量带走,就好似给服务器局部冷却、整体“淋浴”甚至全部“泡澡”。在冷却效率方面,液冷比风冷至少提高15%~20%,已经成为进一步降低PUE的关键力量,近年得到了快速发展。
根据IDC、浪潮信息等编制的《2022-2023全球计算力指数评估报告》,2021年,液冷服务器出货量在整个服务器市场占比不到1%,到2022年开始出现较大的增量市场,同比增速达305.2%。
在2021年之前,液冷服务器占比小、客户群单一,主要来自国家科研项目和互联网数据中心的部署。2022年开始增速显著, 越来越多的传统行业用户开始部署液冷数据中心,例如金融、电信等。 IDC预测,2026年,中国液冷服务器在整体服务器出货量占比将超过10%,成为增速最快的服务器子市场之一。
高算力需求带来什么机会?
算力需求的快速发展是促使大多数客户快速从风冷技术转向更节能的液冷技术的重要原因。因为传统数据中心中无法容纳新的能耗过高的设备, 且耗电费用也要纳入衡量体系, 因此也促使更多客户在更新数据中心整体设计时,转向更节能、更先进的液冷方式。
“基于算力激发以及节能降耗的趋势,我们正在朝所希望的方向加速前进。当‘用户需求激增→标准建立→规模效应体现→整体成本自然下降’的循环形成之后,就可以加速推动产业从存量的数据中心转向新型节能的数据中心。”一位业界人士表示。
显然, ChatGPT为代表的生成式AI应用带来了这一契机。 “市场对于服务器的需求量爆发式增长,得益于此,购买成本、运维成本上,以及伴随算力提升的能耗问题,需要找到一个平衡点。随着后续的运维优化,整体算力提升带来的综合价值将会非常可观。”他表示,“ChatGPT实际上加速了整个产业的发展,对于新建的数据中心,大家也在更有意识地去推动节能减碳的方案。”
冷板式VS浸没式,谁是未来?
在政策与需求的双重驱动下,高效低碳的液冷技术不仅是散热方式的改变,更有可能变革整个数据中心生态。当前,液冷服务器形态主要分为冷板式和浸没式,根据《2022~2023全球计算力指数评估报告》数据,2022年增量市场中, 冷板式服务器高达94.9%。 调研显示,TCO优势、液冷系统的多样性是企业选择冷板式液冷技术的主要因素,从未来增长看,冷板式液冷服务器预计将有更高增速。
不过,高增长态势下,液冷产业仍面临一些潜在挑战。有业内人士透露,数据中心冷却液主要采用全氟碳化合物,氟碳化合物主要包含氟和碳元素,氟化冷却剂由于具有化学惰性,接触时不会腐蚀电子元件,使用后无需特殊清洁程序。
据了解, 全氟碳化合物主要被国外垄断,国内的冷却液之前主要来自3M,国内企业处于加速追赶状态。 不过,有消息称3M因环保原因和原材料问题,3M宣布将退出全氟烷基和多氟烷基物质 (PFAS) 的生产,并努力在 2025年底前停止在其产品组合中使用PFAS,预计将对全球冷却液市场产生重大影响,消耗更少冷却液或根本不用冷却液的需求将会增加。
随着3M宣布退出,国内企业纷纷发力冷却液市场,不过该人士认为,兼容性、可靠性等还需要长期的测试。
此外,在浸没式的环境下,特别是单相浸没的环境下,容易达到解热上限。但是在冷板式液冷中,例如同样的CPU面积下,它可以解决1000瓦以上的上限,而浸没式液冷还需要大量的工作才有望达到。
调研显示,目前在浸没式液冷方面,业界多为小批量尝试,因为其初期成本较高。 国内最早采用浸没式液冷的是两个大体量的互联网公司,部署规模在全国数一数二。 由于他们有自建数据中心的能力,可以完全从整个数据中心的建筑物、规划、液体的流向等维度去做不同的设计,所以有能力在整个建筑中导入新设计。
但是对于大多数行业用户来说,他们很少需要盖一栋楼做数据中心,通常也就是百台、千台的需求。在这样的情况下,能够导入的方案就比较局限,这样的话,冷板技术就相对容易导入。
冷板技术目前较为成熟,不过缺乏规范的验证标准,使得系统设计、验证成本较高, 导致方案整体价格较高。随着冷板标准走向统一,产量提升有望继续带来成本下降。至于具体采用冷板式还是浸没式液冷,还需要对PUE和成本需求平衡之后进行决策。
液冷大规模商用面临哪些挑战?
液冷本身不是新技术,如何把它产业化是当前发展的关键。 在大规模商用普及方面,液冷面临哪些挑战?
浪潮方面表示,主要有三大问题亟待解决:一是 缺乏技术行业标准、规范等的指引 ,产业协同度不高,难以标准化适配和部署;二是由于 缺乏长周期、大规模部署验证 ,液冷数据中心的可靠性问题存在一定争议,用户有使用疑虑;三是 产业链协同性差 ,缺乏具备高度整合能力的链主企业,资源配置效率低、浪费大,产业发展速度受阻。
首批数据中心液冷系列行业标准已于2022年4月1日起正式实施,不过,该标准仅涵盖浸没式、冷板式等主要液冷方式的技术要求和测试方法,以及液冷能源使用效率要求和测试方法、冷却液体技术要求和测试方法等内容。
事实上,液冷技术非常复杂,涉及液冷数据中心系统架构层、液冷部件及接口层、液冷基础设施层 (液冷机柜组件、换热设备、室外集成冷源等) 、液冷监控系统层等多方面,产业链上的各个企业技术路径多种多样、产品规格千差万别,导致液冷进行标准化适配和部署的难度很大,因此,液冷标准、规范等亟待完善。
其次,缺乏长周期、规模化部署验证,可靠性存在争议。液冷技术诞生于上世纪80年代,但一直处于小规模部署阶段,主要是对散热要求更严苛的高性能计算用户采用。并且,冷板式液冷存在漏液隐患,未使用绝缘冷却液的情况下,可能引发严重的生产停运事故。而浸没式液冷技术,由于缺乏长周期的冷却系统使用效果验证,因此技术可靠性依然存在一定争议。
第三,产业链协同性差,缺乏具备高度整合能力的链主企业。由于液冷产业发展处于起步阶段、产业分工尚未明确,导致整个产业链的协同性不强,众多链条企业更多依靠“作坊式生产”的方式来完成产品及服务交付,产业链缺乏具备高度资源整合能力的链主企业,从而导致资源配置效率不高、浪费严重。
写在最后
大数据量、大算力需求下,数据中心因高耗能所带来的碳排放的问题,使得“绿色数据中心”近年来得到了普遍关注,尽管液冷产业还有一定成长空间,但拥抱液冷已经成为数据中心的确定性趋势。
不过,正如相关企业所说,液冷是一项“很新的老技术”,一些用户对其安全性、便捷性等方面,仍存有疑虑。只有继续推动技术创新和产业化发展,才能真正实现液冷技术更可靠、更便捷、更高效。
本文来自微信公众号: 与非网eefocus(ID:ee-focus) ,作者:张慧娟