云+AI,青云QingCloud以AI智算平台简化智算中心运营运维
作为AI大模型的发展基石,AI算力的需求也得到大幅提升——无论是基于通用大模型微调的行业应用,还是垂直行业的大模型训练,都需要大量的AI算力进行支撑,其规模还在随着大模型的成熟落地而不断攀升。
中国信通院《中国综合算力指数(2023年)》显示,近5年我国人工智能算力在整个算力结构中的占比已经超过25%,同比增加60%。未来算力仍会保持高速发展,尤其是智能算力将成为未来算力增长的主要动力。
在青云 科技 CEO林源看来,AI为云计算打开了全新的增量市场,并且会带来一波长达10年以上的市场需求,这正是青云新一轮竞争的机会。
在国家政策的大力倡导下,全国各地都在积极打造大型智算中心,以推动国家新一代人工智能公共算力开放创新平台的建设。同时,“东数西算”工程也推动着各地包括智算中心、超算中心在内的算力中心建设,以提升国家整体算力水平。
一方面,智算中心 投资 巨大,能否盈利取决于运营效率和平台能力;另一方面,相比于建设,中后期的运营则更为复杂,要面对更为现实的技术和应用落地问题,比如:云计算、超算、智算等多元算力如何统一调度?传统应用、云原生应用、AI应用如何同时兼顾?如何支持异构CPU/GPU、提供高效的网络与存储?大规模智算中心如何高效的运维和运营?
在智算中心高速扩张的早期阶段,由于缺少统筹规划和技术经验,项目失败不在少数。某大厂斥巨资建设的智算中心,由于只支持国产GPU,上线时发现很多应用根本无法支撑,导致整个智算中心无法投入运营。与之类似的还有超算中心想要兼顾智算中心的功能,虽然超级计算机提供高精度算力,但却是为科学计算、超算等场景而生的,对于AI所需要的大规模、低精度算力并不适用,因此这一想法也并不现实。
不难发现,智算中心并不缺建设者,关键挑战反而是在建设后的运营阶段,谁能更好地解决这一难题,谁就能优先拿到AI算力的门票,而青云科技无疑是其中的佼佼者。
2019年,作为当时全亚洲最大的计算中心之一,国家超算济南中心拥有1000P的算力、超 300 PB的存储,打造的算力服务包括HPC超算、传统云计算(以CPU为主)、智算(兼顾国外及国产 GPU),是一个名副其实的多元且异构的算力中心。
这样一个庞大的复杂体系,必然对平台建设方和运营方提出了极高的要求。据林源回忆,当时从底层的芯片、服务器、存储、交换机、安全设备到上层的云平台,业内几乎所有顶尖的厂商都参与其中,但整个项目的算力调度运营平台是由青云独家供应的。
如今,国家超算济南中心已稳定运营3年,且已经开始盈利,成为国内多元算力中心成功运营的典范。尽管这种成功看起来毫不费力,但背后其实凝结了青云科技长期以来的技术积累和运营经验。
青云科技在AI算力领域的成功并非偶然,而是在AI算力调度和运营方面下了“狠功夫”的必然结果。目前,除了国家超算济南中心,青云AI智算平台还应用在清华天津电子院智算科研教学平台、上海科发SciPlus科研云等算力融合创新场景中,成为各类算力中心运营者的关键工具,助力算力中心建立从建设到运营的闭环。