青云QingCloud以成熟的AI智算平台助力算力中心运营闭环

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

有分析人士判断,AI市场将会迎来一波长达十年以上的热潮,AIGC在企业IT中的占比投入一定会越来越高,AI对于需求的刺激将是之前10年的10倍-100倍,算力需求也将随之出现等量的增长。

以目前常见的几类AI用例需求而言,很多高校进行的传统科学计算类应用就需要HPC,才能完成如仿真、模拟、洋流预测、基因检测等工作;对于传统的政务云业务、传统CRM/ERP企业数字化应用则属于传统云计算需求,就需要调用CPU类资源;目前大热的涉及道路识别、车牌识别这样的智慧城市类应用则需要调用GPU的能力。业务的多元需求恰恰决定了对于多元算力的需求。

“ 投资 建设一个平台后产生的效益取决于平台能力,因为平台能力越强,能支撑客户的业务种类就越多。客户越多,盈利模式越清晰。”参与服务国家超算济南中心的青云 科技 CEO林源向 媒体 解释了缘何需要异构计算与多元算力。

据悉,三年前国家超算济南中心就已经拥有1000P算力与300PB以上的存储,是当时全亚洲最大的算力中心之一,包括了HPC超算、以CPU为主的传统云计算,以GPU为主的智算,其中智算兼顾了国产化需求,引入了一部分国产GPU,进而成为了一个既拥有多元算力,又具备异构算力能力的超算中心。

“我们已经在国家超算济南中心的实践成功,证明青云平台具备能力、干过,也干成了。”林源专门表达了对于该产品的信心。青云AI智算平台作为计算中心运营者的关键工具,可以建立从建设到运营的闭环,在国家超算济南中心的案例中,不仅三年前就成功进行了实践,还助力其不仅运营得好,还实现了盈利。

青云AI算智算平台可实现对于GPU算力、HPC算力、多存储系统、模型资源、数据资源的多元资源统一平台管理,实现算力平台自动资源。还可根据不同的行业需求,通过平台进行资源分发,具备分布式调度与管理能力,自动分配和管理算力资源,大幅缩短任务执行时间,提高工作效率,让客户专注于业务创新和应用开发。

平台的管理操作也易如反掌,通过统一运营和运维管理平台,实现多种服务场景的运营化服务的后时,规范化高效运维,帮助用户实现精细化运营。青云会为平台管理员交付一个可视化的大屏管理界面,可轻松浏览全国的上千台算力资源与存储,即通过一套运营运维平台,让其定价、打折、促销等,只需要在页面上点击按钮即可。以国家超算济南中心为例,后端其实只需要10-20人的团队,就能实现对于软件的运维,并解决客户的各类问题。

与此同时,青云AI智算平台还可帮助客户解决网络交换速度、环境搭建、多业务整合等问题。

除了大幅提升平台运维人员的管理能力外,对于平台用户而言,青云也能进一步提升AI落地的开发效率。面向算法工程师,青云提供的开发主机,已经内置了一些开发环境和IDE环境,工程师可将Python工程文件等直接传上去,在线写代码、调试、运行,立即找到所需的训练集群。推理完成后,还能实现算法调优,通过算力集群与模型不断优化代码。

另外,青云还提供了在线训练平台,将高性能计算、GPU卡等进行集成,在专属环境上,青云提供一个GPU服务器在线申请构建集群,所有的网络和环境均可一键生成。同时青云会根据行业内常用的模型和小工具进行集成。

容器推理平台支持一键部署高性能Kubernetes集群,在推理过程中,如果发生一些性能上的拥堵,可以实现负载均衡、弹性伸缩。

青云还提供了模型仓库,方便客户可以通过模型市场立即部署自己的模型,调用自身的服务。同时,还能给予模型进行微调,或在线通过云平台的形式一键获取。

总体而言,青云AI智算平台实现了像如同管理本地资源般的方式,来管理AI基础设施,提供多元算力的智能化调度,保证算力快速落地。

随意打赏

提交建议
微信扫一扫,分享给好友吧。