青云QingCloud发挥平台能力提升智算中心运营效率
当前,自动驾驶、人脸识别、智能制造等各类新兴业务对AI算力使用场景越来越多,AI变成各个行业创新的驱动力,推动着各个行业的数字化发展。青云 科技 CEO林源林源在采访中表示,几乎所有的应用都需要拥抱AI的技术或者被AI改造,因为AI是一个更好的生产力工具,他们会降低用户的门槛,并且把原来很多做不了的事情变得能做,让“数字化”变成了“数智化”。
面对持续激增的AI算力需求,智算中心迎来了建设高峰期,但智算中心建成后的运营成为关键挑战。一是智算中心 投资 巨大,能否盈利取决于运营效率与平台能力;二是相比于投资与建设,运营智算中心更加专业和复杂;三是由于数据的隐私性和属地性,智算中心建设分散,运营能力参差不齐;四是支持业务的多样化,决定了要面对极其复杂和现实的技术问题。
因此,算力调度能力成为整个智算中心和AI算力建设中的相当重要但经常被忽视的核心组成部分。对于深耕云计算十余年的青云科技来说,为智算中心运营者打造一个趁手的工具可谓是轻车熟路。同时,其“中立”的云厂商身份,也为青云科技在多元异构智算中心林立的市场下带来更多机遇。
“像管理本地资源一样管理AI基础设施”是青云科技给AI智算平台定下的目标。在青云科技产品经理苗慧看来,面向AI设施资源,智算中心还面临以下挑战:一是多元资源统一平台管理瓶颈;二是高速网络瓶颈;三是环境搭建繁琐;四是多业务整合瓶颈;五是缺乏运营服务。
为了应对以上挑战,青云AI智算平台从四个方面进行优化、研发,一是支持x86、信创等多种硬件架构和GPU卡;二是进行统一管理、调度和全生命周期管理;三是支持多种AIGC模型的一站式交付;四是支撑行业应用计算、高性能计算、人工智能计算等多中国应用模式。
青云AI智算平台致力于打造算力中心建设运营的新模式,实现对GPU算力、CPU算力、HPC算力、多存储、多模型资源、数据资源等多元资源的统一管理,打破网络速度瓶颈和环境搭建复杂等制约,面向多业务场景,提供多租户、计量、计费等丰富的运营功能,全面提升算力中心的运营效率与平台能力。
值得一提的是,国家超级计算济南中心已经成功在青云 AI智算平台的技术能力支撑下,通过一个超级计算平台,统一管理高性能计算、云计算、人工智能计算、数据存储备份、工业仿真计算等资源模块,纳管异构算力,运营多元算力,服务于科研计算应用、政务云应用、智慧城市应用等多元化业务。