详解青云科技推出AI算力产品与服务应对算力挑战
青云 科技 AI 算力发布会上,产品经理苗慧对青云 AI 算力调度平台和青云 AI 算力云服务进行了详细的介绍。以下是演讲全文,经整理:
AI 用户直面算力挑战
随着人工智能行业的爆发,AIGC、大模型、科研计算、企业级大数据及人工智能对算力中心提出了更高的需求。尤其是面对单一算力的数据中心,已经难以满足各行各业日益增长的算力需求,因此需要更多的智算中心、超算中心和通用云计算服务,为全社会提供算力服务。
然而 AI 行业、 AI 基础设施和 AI 算力的用户也面临一系列挑战:
多元资源统一管理瓶颈。面对用户多算力、多存储、整个计算网络以及就近服务的要求,青云提供多元的资源管理统一服务调度平台,来解决多元资源管理混乱的情况。
高速网络瓶颈。在 AI 高速网络建设方面,青云将计算和存储设备使用高速网络进行互联,使用通用网络进行应用服务发布,即通过青云的平台解决多区域高速组网问题。
环境搭建繁琐瓶颈。算法工程师、研发工程师在硬件服务器、对存储服务器等基础环境搭建上可能浪费大量时间,通过青云 AI 智算服务、训练平台和推理模型平台,将环境搭建简洁化,可实现一键部署。
多业务整合瓶颈。青云将多业务整合起来,结合传统云计算、超级计算和智算,面向更多业务为更多客户提供全景的算力服务。
缺乏运营服务。青云同时对算力运营中心、算力管理部门提供全面的运营和运维管理服务。
青云 AI 算力调度平台
青云 AI 调度产品的全栈产品架构是多 AZ、多 Zone 的,即多区域的产品都能统一融合起来,以一个 Global 的服务面向全社会提供算力服务。具体来说会通过纳管底层基础设施,通过数据逻辑层将基础设施逻辑化、业务化,通过具体的产品或服务,包括 GPU 主机、裸金属、虚拟化、共享形式等,形成 AI 算力集群、容器推理服务以及模型市场等相关业务,为全行业的客户提供算力调度与应用场景落地能力。
四面俱到 算力建设中心新模式
总体而言,青云科技提供的 AI 算力调度平台能力主要基于以下四方面:
第一,全平台适配市面上所有的计算芯片(包括新产出的信创芯片),以及 GPU 相关显卡和网卡。
第二,对以上适配资源进行统一管理、分发、监控和调度,从用户申请到使用后释放提供全生命周期在线管理功能。
第三,面向管理端和用户端,青云统一纳管平台让用户和管理员能完整操作 AI 基础设施和 AI 算力云服务。
面向智算领域,青云将更多的业务进行业务化和场景化,比如大语言模型训练与推理、基于文本式生成的负载均衡服务,青云也能通过 AI 算力调度平台,为客户提供一键部署、一键扩容和一键负载均衡等便捷操作。在负载均衡方面,尤其在网络、公网和计算基础设施,能达到秒级交付、秒级扩容。
最后,基于以上三种能力,青云能支撑包括高性能计算、人工智能计算和通用计算模式等各行各业的计算,为客户打造一个自主创新、功能完善等统一的用户管理、分发与运营平台。
九大能力 解锁 AI 算力自由
通过多年行业积累,青云 AI 算力调度平台形成九大关键能力:
1、 多区域多业务资源整合能力
尤其面向川西或者西北地区的算力服务多元化,为东部地区、科研单位、高校提供算力服务时,青云可将多区资源统一纳管,通过跟电信运营商合作建设有效的高速网络。
2、分布式调度与管理能力
根据就近使用原则青云在不同的区域、算力中心、数据中心将所有的基础设施(包括计算资源、存储资源)进行管理分配,配置调度优先级,包括亲和性和非亲和性。在 VM、宿主机及裸金属服务器(包括容器基于 Container 和 Pod 的形式)都可以在青云 AI 算力调度平台的管理端进行亲和性和非亲和性的数据配置,保证数据调度的优先级,目的是为了保证用户在最终使用数据、申请计算资源、业务训练、业务推理中得到一致性体验。
3、资源调度能力
在资源调度能力上,青云有以下六大优点:
1)立即调度、扩容数万卡的资源
主要面向 AI 计算场景,尤其是大模型推理,部分模型场景需要一年几次推理,这需要瞬间构建出几十张卡甚至几万张卡的训练平台。根据这个诉求可以在青云 AI 算力调度平台上进行内置、适配和资源管理,保证算力集群可以立即支持万张卡的资源,使用完成后也能立即释放。在资源环境和配置方面,青云 AI 算力调度平台都做了大量自动化,保证万卡资源能统一调度。
2)通信链路最短优先调度
让数据不绕路,这也是青云 AI 算力调度平台主要的目的。在 AI 训练、AI 推理的场景下,节点和节点之间、节点和存储之间会有大量的数据交互,在这种情况下青云对交换机同时进行一些配置,保证计算和存储资源能在一个交换机下,或者一个机房内、一个机柜内进行优先调度,让数据不绕路,减少 AI 训练过程中网络传输困难的制约。
3)支持异构平台
用户在建设集群时可以选择不同的业务跑到不同的卡上,青云科技同时对芯片也进行了国产适配与国产替代。4)提升调度系统颗粒度
一是基于 Slurm 的调度系统,二是基于 K8s 的调度系统。在调度系统颗粒度方面,用户能感知到真正作业级别的精度,在每一个训练的任务跑到每一张卡上的每一个进程上,都可以通过大规模的数据监控、业务调度等形式,监控到作业异常情况,保证用户能及时处理训练任务的异常情况,实现资源调度的最大化,在此层面上减少浪费,错了马上修改再立即运行。
5)管理端实现调度优先配置
因为不同的算力中心会运营不同的算力服务,尤其是多数据中心的情况下,用户可通过青云 AI 算力调度平台进行调度的优先配置,前期全部内置化,后期用户还可以进行预留、暂停、恢复、优先级设置、排队等设置,提高优先级。在管理层面上青云可以面向特殊申请的用户或者优先级高的用户,进行资源优先分配。
6)面向智算行业灵活调度配置资源
青云能动态灵活地进行资源调度和可配置,解决 AI 系统中具有挑战性的优先事项。这也是青云不断发现 AI 调度算力或者 AI 场景下的新问题,不断用平台解决新问题,用新产品解决行业的一些主要问题。
4、高速并行存储能力
青云的计算和存储产品是多元和多样的, 提供以下三种存储:
1)青云 U10000 对象存储
存储模型、代码和常用的数据调用,主要面向于大规模数据备份、数据读方面的一些操作。
2)并行文件存储 EPFS
在数据大规模并行写的方面,青云提供了并行文件存储 EPFS,主要针对于 MPI 级别的数据的写操作,提供全闪并行文件存储。
3)文件存储 NAS
可以放一些通用的文档、文本等,青云所有的存储产品都能跟自身计算产品进行内部互联,在内部高速网络上进行数据传输、分发、备份等。
5、混合组网能力
面向不同的计算场景可以提供不同的高速网络,比如计算 IB 网和存储 IB 网,它们之间如何进行最优配置?
青云将高配置的计算产品和高配置的存储产品进行互联互通,将中配置、低配置的进行互联互通,用于训练场景、推理场景和通用应用服务场景。
6、算法开发支持能力
面向算法开发人员,青云提供更全面的云服务产品,尤其是在算法开发阶段需要大量调参、大规模编写代码,在训练和部署时由于云上和云下的操作,可能会带来大规模的数据上传、下载或者代码拷贝,不太适合在线编辑、立即运行。
因此青云在算法开发方面提供算法开发的平台, 能基于云服务启动在线开发环境,完整地构建 Python 工程、 VC 工程,在线使用工程文件和工程环境,进行代码的研发。
在研发过程中,如果有需要调试的也可以立即扩容;如果需要训练可以将作业任务立即分配到训练集群上;如果需要推理,就放到推理集群上。
同时,算法开发过程中,可能会有一些联合开发或者混合开发的形式,青云也提供代码仓库和镜像仓库进行模型管理,不同的人员采用不同的权限进来进行统一的算法开发和服务合并。
一言以概之,青云面向算法开发人员主要提供全开发场景的计算产品和调度产品,保证整个算法开发业务在云上能有效运营起来,减少大规模上传、下载操作。
7、AI 训练平台
如果算法开发在接近尾声或者需要调试的情况下,需要启动大量的算力基础设施进行开发训练,基于基础设施青云提供 AI 训练平台可为用户赋能。
当 GPU 资源、存储资源和网络资源建设好后,用户可通过云平台进行自主构建,实现一键运行。青云 AI 训练平台主要基于自身 GPU 资源,在线构建集群,构建完成后会默认挂载某一个存储,用户可以自行选择。
在青云 AI 训练平台上同时会内置在线开发环境,在开发环境下还会内置一些常用的训练框架,通过集群统一向用户提供全场景和全应用环境,让用户可以多机在线进行分布式训练。
8、容器推理服务平台在大模型训练几乎结束后,面向公众提供推理服务时,青云容器推理服务平台就能发挥作用。
通过青云容器推理服务平台,用户布署推理服务后,再用配置好的负载均衡和自动伸缩,保证用户访问量能立即得到调用。同时青云面向客户提供在线的监控服务,如果推理服务出现问题,用户可以立即监控到容器推理出了什么问题,青云可以在线解决。面向并发性操作和大规模调用操作上,青云还可以进行负载均衡和自动伸缩,极大减少人工配置操作。
9、模型仓库(MaaS)
青云模型仓库(MaaS)主要面向 AI 算力服务客户及通用计算客户,模型服务商可以根据自己模型的需求在应用市场、模型市场进行产品上架,方便各企业的客户能一键调用、一键微调、一键部署使用。
三:激发多元价值 加速场景落地
总的来说,青云 AI 算力调度平台目的是像管理本地资源一样,管理 AI 基础设施,主要体现在五大方面:
1、提供多元算力统一调度
面对 GPU 资源、CPU 资源、国产芯片、应用框架、应用程序以及用户的业务场景,青云都统一使用一个平台进行调度和管理,也包括存储设施和网络设施。
2、基于基础设施实现智能化算力调度
针对算力调度优先级、亲和性,基于 VM、宿主机和容器,用户都能通过青云的平台实现智能化算力调度和配置,以及管理服务。
3 、对国产芯片快速有效适配 青云对国产芯片能进行有效适配、快速适配,保证国产化的算法服务、国产化的代码能在国产芯片上立即运行起来。
4、可视化服务
面向管理端的智能运维方面,青云的监控、告警服务等都通过一个大的运营和运维平台为客户和管理员提供可视化操作。
5、丰富的应用市场
青云科技积极建设生态,打造丰富的应用市场,让各行各业的应用和各行各业的客户,都能在青云 AI 算力平台上得到想要的计算资源和业务资源。
目前青云 AI 算力调度平台已在济南超算应用落地,山河云已经上线提供运营服务。青云基于济南超算上万台的硬件基础设施,多种计算网络、服务器等,进行上架、管理、调度服务,对不同机房以及超算业务、智算业务、GPU,以及基于各种存储和网络信息,进行统一纳管整合、管理和分发,为各行各业的客户提供算力调度的产品和算力云服务产品。
青云 AI 算力云服务
青云 AI 算力云服务产品也在青云公有云上进行上架提供服务,主要面向大模型训练场景。
在面向比较高优先级和高配置的卡上,青云来提供公有云的算力服务产品,在 AI 场景下青云将底层资源构建分布式 GPU 算力集群,绑定公网环境,让用户进行访问。
用户可以基于此将数据上传到并行文件存储上,也可以将并行文件存储和 GPU 算力集群,通过私有网络保证数据安全和保证云服务的安全性,统一纳管到同一个网络里。还可以通过在线训练、远程SSH访问分布式算力集群和并行文件存储,将业务运行起来。
在业务上,用户可以使用 AI 算力集群、容器推理服务,其基础设施都是 A800 资源、裸金属服务器、虚拟化服务器。所有青云 AI 算力云服务产品下都采用高速互联的网络,采用针对 AI 算力行业所需要的在线环境、开发环境、训练和推理环境等,欢迎大家申请注册和试用。