大模型引爆AI算力需求,青云QingCloud的“下一站”
“对于青云来说,AI时代将是一个全新的机遇,它将会带来长达10年、比过去10年更大的市场需求和机会。”青云 科技 总裁林源如是说。而在AI大模型这一轮技术进步中,支撑人工智能所需的算力自然也成为关注的焦点。基于对AI算力需求的洞察,青云发布了青云AI算力服务平台、青云AI算力云等产品与服务。
随着AI大模型的发展,算力的重要性日益凸显。以ChatGPT为例,根据相关调查数据,ChatGPT的总算力消耗约为3640PF-days,需要7到8个 投资 规模为30亿、计算能力为500P的数据中心才能支持其运行。值得注意的是,AI训练任务中的算力增长速度极快,每3.5个月就会翻一倍。
在算力需求提升的同时,算力已成为推动数字 经济 发展的核心力量。《中国综合算力指数(2023年)》的最新数据显示,截至2023年6月底,我国算力总规模已经达到了197EFLOPS,全国在用数据中心机架总规模超过760万标准机架,位列世界第二。我国算力总规模近五年年均增速近30%。
AI算力产业的发展既是机遇又是挑战。
林源认为,AI和大模型是重大生产力的变革,在这场技术推动的市场变革中,客户需求、算力需求、应用需求和底层架构都在发生变化。在过去十年,无论是面向C端的移动 互联网 还是面向B端的数字化,主要基于CPU进行应用革新。然而,随着AI的普及,几乎所有应用都需要拥抱AI技术或被AI改造,使得GPU的需求量增加。
不仅如此,在东数西算的趋势下,未来AI应用将在追求效率的同时,更加注重成本效益,从而推动算力从延迟低的东部沿海地区向价格更便宜的西部地区发展,未来算力分布将更加分散。此外,随着AI和云原生技术的不断发展,客户业务将更加复杂,业态将更加丰富,对技术和平台的挑战也将越来越多。
尤其是在智算中心建设和运营过程中,其设计合规化如何考量,超算、智算、通算等多元算力如何做到统一调度,传统应用、云原生应用、AI应用如何同时兼顾,如何支持异构CPU/GPU,如何提供高效网络与存储,如何实现高效地运维与运营等,都是需要考虑的问题。可以说,智算中心建设后的运营成为关键挑战。
基于自身经验与实践,青云科技也给出相应的答案——AI算力服务平台,并为行业提供了一份可参考的范式。青云科技产品经理苗慧表示:“AI算力服务平台作为算力中心建设运营的新模式,目的是像管理本地资源一样,管理AI基础设施,提供多元算力调度,提供智能化的算力调度,保证算力能快速建立起来。”
青云AI算力云是以青云为主,以生态联合的方式,对外运营的AI算力服务。相比传统模式,青云AI算力云有其一定的优势:从客户的角度来看,他们需要一个完整的解决方案,包括有机房、算力、调度平台、模型驱动、模型、Model Service和上面的应用;从供应商的角度来看,每层都需要专业的技术和长时间的积累和巨大的投入。
林源认为,在AI领域,一定会出现巨头,但这些巨头不应该是一家独立的公司,而应该是一个一个良好的生态合作体系,需要各家公司协同合作,共同推动AI技术的进步和发展。