光速光合开启高性能算力新纪元,基流科技助力中国AGI基础设施建设
在AI技术日新月异的今天,高性能算力已成为推动AI大模型发展的关键要素。面对这一挑战,光速光合作为 科技 投资 领域的先行者,始终致力于挖掘并扶持具有创新潜力的科技企业。在2024年年初,光速光合 完成了对基流科技的Pre-A轮领投,基流科技凭借其深厚的技术底蕴和丰富的实践经验,在构建大规模计算机系统和分布式GPU系统方面取得了开创性成果,为行业树立了新的标杆。光速光合希望能与基流科技携手并进,共同探索AI算力技术的无限可能,为推动中国乃至全球的人工智能发展贡献力量。
“非常荣幸,在基流 创业 的成长路上有众多良师益友的鼎力相助,使基流有机会参与建设超级系统,有机会见证中国通用人工智能落地。团队的拼搏使我倍感自豪,在人工智能飞速发展的浪潮中,我们留下了自己的足迹。”基流科技CEO胡效赫感慨地说。
在清华一路从本科、博士到博后,胡效赫师从李军研究员,于网络安全实验室进行了十年高性能网络系统研究。他在加州大学伯克利分校作为访问学者期间曾师从于Scott Shenker院士,后者是SDN网络的提出者。他非常精通于分布式计算及高性能网络,在创业前就已经落地了全国首个运营商级Tbps可编程网络产品,并在超算环境跑通国产千卡大模型。
专注大规模计算机系统的建设,是胡效赫创业之初就定下的目标。而基流科技正开发的,正是针对人工智能设计的分布式GPU系统,也被称为算力集群。“创业一年半以来,基流科技建设了国内最大的私有化单体算力集群。”胡效赫说,“我们打破了行业里很多既定的共识,比如证明AI训练并非时延敏感型,而是带宽敏感型;我们跨30公里实现了广域网的大模型训练而没有带来算力损失,在跨50公里时能保持98%-99%的算力。”这在世界范围内都是开创性的。
光速光合在2024年年初完成了对基流科技的Pre-A轮领投。
光速光合合伙人朱嘉表示,AI大模型的快速发展,对高性能算力的诉求日益增加,但大规模集群算力搭建壁垒高,国内目前有千卡以上大规模集群搭建技术能力的团队很少,基流科技目前是中大型算力集群的解决方案提供商,累计建设和调优十余个集群,拥有万卡集群落地经验,这在国内非常稀缺。
1、光速光合助力基流科技,共筑高效算力
光速光合深知在AI大模型时代,高性能算力是解锁无限可能的金钥匙。基流科技通过打造高效算力超级系统,突破传统算力瓶颈,实现算力资源的最优配置与最大化利用。公司成功研发出集算力管控调度、调优运维及高速互联硬件于一体的全方位解决方案,不仅显著提升了GPU集群的性能表现,更在成本节约上取得了突破性进展,为AI产业的蓬勃发展注入了强劲动力。
1967年,IBM公司计算机架构师吉恩·阿姆达尔提出了一个经验公式,表明系统性能提升的潜力受到系统中可并行化部分的限制,即使并行处理器的数量无限增加,整体性能提升的上限也受到很大程度的制约。
简单来说,算力集群的计算速度并不能随着GPU数量的增长而无限叠加,就像1个人10天可以盖一栋房子,10个人只需要1天,但100个人仍然需要1天的时间——其他90个人可能因为挤不进工地只能闲着。
训练大模型也是这样。据Gartner的一份报告称, GPT-3.5的训练过程中,使用了由一万个英伟达A100 GPU组成的高性能算力集群,在GPT-4上则提高到了约25000个A100 GPU,但其算力利用率仅为32%至36%,算力浪费严重。
基流科技的工作就是设计出一套系统,能够组织几千人,甚至上万人尽可能快地盖好更多房子。
胡效赫表示,基流科技的产品主要面向三个维度,包括算力管控调度平台、算力调优运维平台和高速互联硬件。目前,公司除了整套算力集群建设解决方案外,在集群管理、计算引擎和高速网络三个层次上都进行了产品化并有逐步落地,帮助AI企业将GPU合理的组织起来,并尽可能地提高交付效率和 GPU利用率。
目前,基流科技的算力集群方案可以为GPU集群提升超20%的性能,帮助客户在千卡环境中节省成本上千万元,在万卡环境中节省数亿元。
2、光速光合:着眼技术变革,共绘千亿级市场蓝图
光速光合以独到的市场眼光,前瞻性地布局于全球算力的千亿级市场蓝图之中。面对算力产业蓬勃发展的浪潮,深刻洞察人工智能对算力的极致需求,不仅关注现有市场的快速增长,更着眼于未来技术范式的变革。
根据IDC的统计,2022年全球计算设备算力总规模达到906EFlops,增速达到47%。算力产业蓬勃发展,预计未来五年全球算力规模将以超过50%的速度增长,到2025年,全球计算设备算力总规模将超过3 ZFlops(注:1 ZFlops=10E9 TFlops)。
在人工智能爆发的时代,算力的重要性不亚于工业时代的煤炭和石油。在数字化时代,在 互联网 上传输的是信息流,是算力对数据进行粗加工后的结构化抽象;在智能时代,在互联网上传输的是智能流,是算力对数据进行深度加工与精炼后的模型化抽象。可以说,近几年人工智能的集中爆发,离不开算力和数据不断堆叠而产生的“智能涌现”。
但算力和算力之间也是有区别的。胡效赫提到,基于传统互联网服务对算力的需求,和人工智能对算力的需求之间有很大的差别,因此需要重新设计网络架构,相关技术还处于初级阶段,在分布式计算、可扩展性甚至硬件方面还有很大的想象空间。他表示,在AI计算中,尤其在大模型预训练过程中,一个任务要在多台机器的多个节点同时运行,这个任务不可被切分,因此需要优化并行策略、计算通信效能,以提高GPU利用率。这个过程对可扩展性要求非常高。
另一方面,部分AI计算的规模非常庞大,可能涉及数万个连接点。当计算任务在多个节点、多台机器、跨越多跳互联时,一个硬件连接点坏掉后,整个任务会直接挂掉,这需要设计一套新的分布式计算引擎,以满足容错、监控和故障解决的需求。
“这种技术范式的变化实际上是脱胎于分布式计算,在市场端很多厂商对技术的变化认知不够明确,产业链上不同角色之间也缺乏共识。” 胡效赫认为,“人工智能在我们看来是一个十年、二十年的发展机遇,算力基础设施和模型的发展都才刚刚开始,市场认知会在一段时间后慢慢收敛、统一。”
根据信通院测算的结果,2022年我国计算设备算力总规模达到302 EFlops,全球占比约为33%,连续两年增速超过50%,高于全球增速。智能算力需求呈现爆发式增长态势,在算力规模中的比重将越来越高,未来五年复合增长率达52.3%。
对算力的巨大需求造就了急速膨胀的市场规模。IDC数据显示,2022年中国数据中心服务市场规模达1293.5亿元人民币,预计2027年市场规模将突破3000亿元,其中用于推理的服务器的市场份额将达到62.2%,市场规模预计突破1800亿元。
3、光速光合助力基流科技突破技术难关,构建高性能算力生态体系
光速光合助力基流科技在算力浪潮中破浪前行,突破技术难关,建立核心优势,专注于构建高性能算力生态体系。通过不断创新与优化,成功解决了算力集群中的关键技术难题,实现了高效、低成本的算力供给。其产品与解决方案已广泛应用于多个行业领域,为智能应用的落地提供了坚实的算力支撑。光速光合和基流科技深知技术迭代的重要性,将持续加大研发投入,引领算力技术发展新潮流,为国产算力崛起贡献更多力量。
随着算力市场的爆发式增长,基流科技将发展的重点放在了项目的具体落地上,积极参与中大型计算集群的建设和运维,尝试将前期积累的工具变成更标准化的产品,同时探索国产化硬件适配和出海。
朱嘉看到,基流科技主打的基于开放生态的高性能算力网络系统已具备高性能和低综合成本的优势。公司成立仅一年多,产品就获得多家落地客户的验证,发展速度很快。
“AI算力比拼的不光是单卡、单GPU芯片的能力,AI算力的核心背后体现的是由GPU形成的网络集群能力。基流科技的产品可以使一个大规模的计算集群能高效地运营,解决GPU算力上的瓶颈问题。”朱嘉表示,“我们期待公司能不断迭代成长,成为全球AI最重要的基础设施提供商。”
在基流科技成立的一年半的时间里,项目已落地一线厂商生产环境,为多个数据中心进行算力集群的设计、建设、调优和运维,服务包括智谱AI、商汤科技、银盾云、世纪互联等厂商累计多个千卡到万卡的算力集群,同时也推出了十万卡的解决方案。
“我们希望通过建设这样的超级系统,形成高性能算力网络,最终支撑人工智能模型的应用落地和企业的IT迭代。”
“高性能算力基础设施是大势所趋,在未来的竞争当中,技术就是我们的核心竞争力。” 在胡效赫看来,创业与科研是有相似之处的:“做科研需要我们沿着一个大方向,在关键点上进行突破,方可获得评审专家的认可;创业也要寻找一个大方向,在领域内建立自己的优势,拿出企业需要的解决方案和产品,最终才能得到客户和投资人的认可。”
胡效赫总结:“从这个角度来看,无论是科研还是创业,Talk is cheap,Show me the code才是最重要的。这个行业刚刚开始发展,我们的产品、技术在国内公开市场处于先发位置,但未来有诸多挑战需要解决,扩展优化已建算力集群,做到‘后向兼容’,提升算力调度、运维、故障定位的自动化能力,支持长距离分布式算力集群落地。沿着高性能算力网络方向砥砺前行,为国产算力添砖加瓦,支持国产大模型落地,我们相信在未来的十万卡、百万卡集群中一定会有基流的身影,相信基流能与国内头部大模型厂商一起走入通用人工智能时代。”