青云云原生，为解决AI成本过高与算法需求激增矛盾找到突破口

砍柴网 • 2年前扫码分享

当前，人工智能在经济和战略上的重要性，将成为企业、政府数字化转型的首选项。企业在发展数智化转型中，AI的使用仍受到诸多限制，首当其冲的是AI成本居高不下。

IDC数据显示，2021年全球企业在人工智能软件、硬件和服务的总投资将超过850亿美元，预计将在2025年增至2045亿美元，五年复合增长率达24.5%。

在青云科技云原生产品负责人于爽看来，AI所需的算力是一种高阶算力，也是一种更高成本的算力。这种情况下，不管是AI框架和工具，还是AI应用，都面临着一种“内驱”产生的变化，也就是说AI应用本身对外的输送能力可能没有变化，但对内需要能兼容更多的计算架构，兼容更多的轻量调度框架。

如何评估AI算力成本？

算力计算成本高昂，不禁让人疑惑，AI是否真可以实现普惠于民？任何技术过于昂贵都会成为少数人才能享受的奢侈品，比如早期的电脑、手机、互联网等。同样，AI算力过高也会影响之后的应用和落地。

AI算力成本主要是设备、电力、网络带宽等支出，其中又以设备的支出为最大，最新型号的CPU、GPU、闪存、智能网卡等IT设备都会给AI算力带来更大的好处，企业需要确保AI算力能满足业务需求。

企业将AI视为业务转型、流程再造的重要组成部分，而不能孤立看AI的技术或者应用。由于AI投入巨大，企业在评估ROI时需要从多维度来进行衡量，在AI的价值体现中，业务应用至少占6成。

另外，企业需要从行业竞争、公司战略角度进行评估：

AI是否是公司业务战略的核心，例如车联网企业就需要基于AI实现自动驾驶。

AI是否成为增加收入的手段，如农业通过AI及时发现病害生物，航运业通过AI增加航运效能，这些都将从AI场景中直接获得收益。

AI能否成为降低风险和成本的手段，如仓储物流业通过AI及时发现危险情况。

用云原生化解AI成本

人工智能发展已经进入与行业深度融合的阶段，AI计算能力反映了一个国家最前沿的计算能力。中国和美国是AI算力支出占总算力支出最高的两个国家。

AI的投入不断增加，主要是因为AI涉及的业务场景在不断普及，比如车联网、监控及应急管理，这些都需要AI进行海量数据分析以优化算法，实现更高效的智能化处理。这里的投入既有算法研发人员的投入、更需要有AI设备（算力和GPU资源）的投入等。

于爽表示，AI场景灵活多变，对于企业，特别是中国企业来说，IT环境更加复杂多样，而形式和服务模式固定的公有云很难满足企业在AI场景上的需求。因此很多企业选择云原生架构来解决这类问题，将AI业务、工具和容器、K8s结合，可以兼容多种基础设施环境，可以灵活地快速部署交付，让企业可以放下负担，更快速高效地发挥AI的真正价值。

青云云原生，为解决AI成本过高与算法需求激增矛盾找到突破口

通过云原生，可以充分释放云的弹性、灵活、分布式、高可用等特性，帮助企业实现降本增效。青云科技开源了KubeSphere云原生容器平台，利用云原生的技术特性，将AI的使用和管理成本降低，同时结合自身的云网边端一体化能力，将AI的价值输送变得更便捷。

云原生对于AI场景的友好及效率提升，云厂商也可以通过海量AI算力资源池，存储资源池来解决AI生产成本过高与AI算法需求增加之间的矛盾。

GPU/CPU/存储的高额成本往往成为企业进行AI规模化应用的拦路虎。在特定场景下，模型训练往往是周期性的，同时更希望借助庞大算力来缩短训练时间，及时产生业务价值，此时就可以充分发挥云厂商在算力资源上的优势，借助其规模化效应，按需使用、按需付费来实现AI场景的落地。

青云科技在公有云上也提供了GPU云服务器，对于企业来说有四个明显优点：超强计算加速、极致网络性能、弹性购买方式、高性价比。例如，采用深度生成模型来实现精准降雨预测，该模型只需1.3秒即可生成一个全分辨率的临近天气预测样本。在私有云环境里，可以通过超级智算平台来统一管理CPU与GPU资源，形成横向与纵向资源的弹性伸缩及优势互补。

结语

如今人工智能类工作负载成为企业IT基础设施的重要承载对象，众所周知，AI的投入巨大，尤其是以算力为主，如何降低AI算力成本成为产业的关注焦点。

可以预见，人工智能只会越来越普及，越来越普惠，对算力的需求越来越大、越来越多样，要支撑AI产业的真正爆发，低成本普惠且包容的算力供给必不可少。

我们看到不管是芯片厂商还是服务器厂商，以及云厂商，整个产业链都在协同努力降低AI成本。青云科技通过云原生手段让AI成本更低的做法值得借鉴，毕竟技术的问题需要通过技术来解决。

不过AI成本不光只是基础设施的问题，这是一个综合问题，需要企业进行全局评估。随着AI的加速落地，企业在AI的投入持续增加，成本问题的解决也将成为重点，这需要我们一起共同应对挑战。