多地多智算中心如何运营运维?青云科技一个案例讲清楚
青云 科技 服务于某国企大规模智算基础设施的建设运营,为多地多中心的复杂架构提供管理平台,实现算力统一调度、统一运营与运维。
该大规模智算基础设施项目初步计划在跨省的多地建设智算中心并统一对外运营,目前部分智算中心已经建设完成。各地智算中心都将作为Sub Zone(可用区),通过Global Zone(全局区域)对外提供通用算力、高性能算力及智能算力。
面对多地多中心的架构模式,如何有效统一管理资源、如何实现资源的按需调度、如何降低运营运维成本与压力,成为了该大规模智算基础设施项目面对的现实挑战。
首先,该大规模智算基础设施项目需要对CPU算力、GPU算力、HPC算力、多存储系统及数据资源等多元资源实现统一管理,且多地多中心更需要高性能的网络带宽保障运行及计算效率。
其次,多地多中心的分期建设存在相当数量的异构硬件资源,该大规模智算基础设施项目需要统一纳管多种异构服务器、存储、网络等设备,以保障资源的统一调度与分发。
再次,跨地域建立统一的运营运维体系成为该大规模智算基础设施项目管理标准化、流程化的关键因素,也是降低成本、提升效率的重要保障。
最后,该大规模智算基础设施项目的运营要考虑应用的现实落地,不同平台与不同软件的技术开放性与兼容性也相当重要。
青云科技AI智算平台的多元异构算力统一调度、智能化算力调度与管理、智简运营运维能力等都能够契合该大规模智算基础设施项目的需求。
青云 AI 智算平台能够统一纳管多种异构芯片、服务器、存储、网络等设备,通过多种网络架构和拓扑结构,为该大规模智算基础设施项目提供稳定可靠的网络环境,整合不同区域的算力资源,构建可灵活调度的算力资源池。
青云 AI 智算平台能够通过统一平台实现资源规范化、可视化管理及高效运维,助力该大规模智算基础设施项目精确资源分配与标准化服务运营,实现多租户管理、计量计费、客户管理及工单管理等功能。
青云 AI 智算平台具备分布式调度与管理能力,能够自动分配和管理算力资源,同时提供开放的应用框架和模型服务,能为算法开发到模型部署提供全流程服务支持。
在青云AI智算平台的支持下,该大规模智算基础设施项目成功应对了多点布局带来的管理与调度挑战,构建了高效协同的多中心模式,为最终用户提供资源丰富、按需扩展、智能调度的云上环境,降低用户算力资源使用成本,提升创新效率。