以技术创新为驱动,持中立姿态,金山云助力大模型发展落地 原创
近期,金山云发布了最新财报,二季度,金山云人工智能业务的表现尤为突出。据财报数据显示,人工智能业务收入已增长至3.26亿元,占公有云收入的比例高达26%,且较上一季度实现了翻倍的显著增长。
这一亮眼成绩,与金山云坚定推进业务战略调整密不可分。金山云高级副总裁刘涛在采访时表示,自2022年开始,金山云便着手进行业务整顿,主动收缩CDN业务规模,并严格筛选行业云项目,积极把握人工智能带来的机遇。金山云将更多资源投入到计算、大数据、数据库及AI等高利润率、高壁垒的产品领域。这一战略调整,显然为金山云在人工智能业务上的迅猛发展打下了坚实基础。
金山云高级副总裁刘涛
技术创新突破,深耕大模型服务领域
为了更好地服务大模型客户,金山云在多方面深耕细作,紧跟用户需求,持续推动技术创新与突破,这不仅助力了众多大模型企业高效完成训练和推理工作,更为大模型时代的全面到来注入了强劲动力。
大模型时代,企业对算力的需求旺盛。刘涛强调,算力业务并不是简单地售卖设备,而是涵盖了算力供给、规模组网能力、存储以及平台能力等多个复杂而关键的环节。
在 算力供给 方面,金山云能够针对客户不同场景中的需求,通过异构算力实现计算效力最大化,确保算力资源的稳定与充足。
在 规模组网能力 方面,金山云通过深入的技术研发,有效解决了稳定性、工程实施准确性等一系列挑战。特别是在网络部署方面,金山云能应对大规模集群部署带来的网络部署和抖动等难题。
众所周知,大模型训练面临着互通互联的挑战,需要高性能的网络通信来支持数据传输和同步。金山云从成本和开放性的角度出发,选择了RoCE网技术,并且在多个项目中成功实践。此外,金山云自研的RoCE网络监控平台提供集群端侧和网侧的基础信息与指标、网络故障感知和告警、主动排障能力;在GPU自动化运维插件方面,通过整合资源管理、硬件监控和Kubernetes调度能力,实现秒级故障感知、分钟级完成故障自愈动作,这又从运维层面为客户提供了便捷。其提供了创新性的三维方式展示网络拓扑及连接关系,使用户能够直观感知带宽利用率及网络抖动或故障位置。
第三,当解决了高性能网络的稳定性后,就是 存储能力 的提升。针对模型训练对数据的高度依赖,金山云通过自研平台,实现了比开放数据框架CCNet更高的语料清洗效率,并在存算分离场景中展现出显著优势。针对生成式AI客户对数据清洗的需求,金山云还整合星曜裸金属服务器EPC、大数据平台KMR和对象存储KS3推出了针对该场景的数据清洗解决方案,满足预训练数据集、微调数据集生成对于数据清洗的需求。
为了满足客户对更高带宽兑付能力的需求,金山云开发了 全闪存对象存储 KS3极速型,最高可提供1Tbps/PB的兑付带宽,相较基于机械硬盘(HDD)的对象存储性能提升了上百倍。当数据清洗后便会存储下来进行训练,训练任务需要访问NAS,就像一个个读取文件夹中的文件。为此,金山云又开发了 文件存储网关 ,架在对象存储之上,提供非常高的带宽兑付能力。
集群规模更大时,就会涉及checkpoint快速保存问题。一旦集群中有一个出现故障,整个作业任务就要暂停,基于上一次的checkpoint进行恢复。但是由于写入速度不够,恢复时间更长,恢复的代价也就会更大。为了解决在处理大规模集群的checkpoint缓存问题,金山云研发了 分布式checkpoint机制 ,通过并发处理,大幅提升了写入速度,缩短了训练因故障中断后的恢复时间,为客户提供了更加高效、可靠的训练环境。
在平台能力方面,金山云针对不同客户需求,灵活调整服务策略。对于平台能力相对薄弱的客户,金山云搭建了瀚海平台,这是一个针对大模型闭环的训练平台,涵盖了数据标注、清洗、质量评测到数据配方管理的全方位服务,有效降低了客户的使用门槛。
中立定位,护航大模型企业稳健前行
在当今百模大战的环境下,金山云凭借其独特的中立定位和技术优势,成为众多企业信赖的合作伙伴。刘涛介绍了金山云的独特优势。
首先,金山云作为一家中立的云服务商,其独特定位使其能够站在客户的角度,提供更加客观、专业且无偏见的建议与服务。这种中立性确保了金山云在为客户提供解决方案时,不会因任何潜在的利益冲突而损害客户的利益,从而赢得了客户的信任与好评。
其次,金山云不仅是一家云服务提供商,更是一站式MaaS解决方案服务商。从IaaS层的资源供应,到PaaS平台能力,再到上层的模型训练,金山云提供了全面的支持。这种一站式的服务模式极大地简化了客户在训练大模型过程中的复杂度,使他们能够更加便捷、高效地完成模型的训练和推理,进而提升业务效率与竞争力。
最后,金山云还深知企业在实际工程实施中可能遇到的各种挑战。因此,除了提供基础的云服务和MaaS解决方案外,金山云还为客户提供专业的咨询服务。无论是前期的规划与设计,还是模型调优、落地实施等关键环节,金山云都能凭借丰富的经验和专业的技术团队,为客户提供量身定制的解决方案,确保客户的项目能够顺利推进并取得成功。
多维度服务构建智算云,灵活应对企业多样需求
随着数字化转型的深入推进,越来越多的企业开始关注如何利用人工智能技术提升业务效率和竞争力。智算云作为提供算力服务的重要平台,能够为企业提供定制化的算力解决方案,满足其在人工智能研发、高性能计算等方面的需求。
刘涛指出,智算云的概念远超于单纯的算力提供范畴,它实际上是一个涵盖多维度的综合体系。其中包括了机器的维护与监控、网络基础设施的构建、管理运维的全方位支持,以及平台硬件资源和网络资源的精细调度。它还涉及上层的作业任务管理和推理任务管理等多个环节,形成了一个紧密相连、高效协同的闭环。
刘涛进一步强调,智算云的形态并不局限于公有云领域。实际上,如自动驾驶 汽车 企业,由于面临严格的数据合规要求,因此需要拥有专属的Region来确保数据的合规性与安全性。金山云正是基于这一洞察,提供公有云专区解决方案,这是一种创新的分布式云建设模式,能够满足客户对数据安全和合规性的高要求。金山云与客户私有云环境的身份验证系统进行集成,实现了统一的管理界面和API支持,为客户提供了便捷的使用体验。
除此之外,金山云还致力于提供私有云服务,全面满足企业在智算、网络、存储、推理框架以及训练任务等方面的多元化需求。而这一切,都无需企业自行承担基座建设和运维等繁琐任务。金山云规划并推出智算平台,通过在公有云侧建立账户、计量等管理功能,同时在企业私有环境中部署具体业务,实现了公有云与私有云的无缝对接与高效协同。
在持续提升公有云计算能力方面,金山云同样不遗余力。公司不仅推出了面向企业级的性能保障型云服务器X8,以满足客户对高性能的苛刻要求;公司还首发了基于英特尔®至强®6能效核处理器的第九代云服务器高效型SE9,在计算性能、内存性能、网络能力和存储能力等方面,SE9均实现大幅提升,能够以更加灵活、高效的方式满足客户的多样化需求。与此同时,金山云还倾力打造了完备的智能计算集群,凭借强大的技术实力和丰富的行业经验,全面满足客户在智算场景下的各类需求。