博通VS英伟达,谁将主导AI芯片新格局?
上周五美股博通大涨24.43%、市值站上万亿美元后,本周一博通股价又上涨了11.21%,市值达1.17万亿美元。该公司拿出超市场预期的一份最新财报后,市场对于AI定制芯片的兴趣仍在高涨。即便周二美股多只芯片股普跌,博通周二股价回调跌3.91%,收盘市值也仍在1.1万亿美元以上。
在AI领域,博通涉足定制或专用集成电路(ASIC)和以太网网络部件,博通与三家大型云厂商合作开发定制AI芯片。作为一种更专用的芯片,ASIC和更通用的GPU(图形处理器)站在了对立面,前者是谷歌、Meta、亚马逊和诸多 创业 公司的阵营,后者则主要站着英伟达和AMD。
博通股价起飞只是ASIC反攻GPU阵营的一个前奏。除了用自研ASIC替代英伟达GPU的云厂商,ASIC领域的创业潮也在涌动,创业公司正在世界范围内寻找客户。在业内人士看来,GPU和ASIC之争更像是一场通用和专用阵营之争,在AI最终定型之前,两种芯片都不会完全取代对方,这场博弈也不一定以一输一赢为结果。
谁在给博通们创造业绩?
GPU霸主英伟达在聚光灯下站了太久,人们可能容易忽略背后各云厂商的造芯努力,它们设计的ASIC渗透率可能比很多人想象的更深。
ASIC包含多类芯片,诸如TPU(Tensor Processing Unit,张量处理器)、LPU(语言处理器)、NPU(神经网络处理器)等。云厂商中,谷歌多年前就布局TPU,其第六代TPU Trillium在本月正式向客户开放使用;Meta今年推出了专为AI训练和推理设计的定制芯片MTIA v2;亚马逊有Trainium2,并计划明年发布Trainium3;微软则有自研AI芯片Azure Maia。
或许是因为不对外销售芯片,这些云厂商的AI芯片比较少受到市场关注。但实际上,这些云厂商已在自己的数据中心部署ASIC芯片并着力扩大这些芯片的使用。
以谷歌为代表,TechInsights数据显示,去年谷歌已悄然成为全球第三大数据中心处理器设计公司,位列CPU霸主英特尔和GPU霸主英伟达之后。谷歌内部工作负载运行TPU而不对外出售芯片。
亚马逊则向OpenAI的竞争对手Anthropic进行多次 投资 ,加深与该公司的绑定。Anthropic就用了亚马逊的Trainium。亚马逊近日透露,建设给Anthropic使用的Rainier超级计算机集群项目很快会完成,亚马逊还在建设更多产能以满足其他客户用Trainium的需求。
定制芯片厂商博通、Marvell的相关订单就是来自这些云厂商。其中,谷歌、Meta的ASIC芯片与博通合作定制。除了谷歌,摩根大通分析师预测,Meta有望成为下一个为博通带来10亿美元收入的ASIC客户。亚马逊则与芯片厂商Marvell合作。本月初,亚马逊AWS刚与Marvell达成一项为期五年的协议,双方拟扩大在AI和数据中心连接产品方面的合作,以便亚马逊部署半导体产品组合和专用网络硬件。
体现在业绩上,2024财年,博通收入同比增长44%,达到创纪录的516亿美元。该财年,博通人工智能收入同比增长220%,达到122亿美元,推动公司的半导体收入达到创纪录的301亿美元。博通还展望2025财年第一季度收入同比增长22%。
据Marvell本月早些时候发布的2025财年第三季度财报,该季度公司营收则为15.16亿美元,同比增长7%,环比增长19%,该公司称环比增长幅度高于此前指引的中点,并预测下一季度营收还将环比增长19%。Marvell表示,第三季度的业绩表现和对第四季度业绩表现强劲的预期主要是由定制AI芯片项目推动的,这些项目已经开始量产,并预计2026财年需求还将保持强劲势头。
除了谷歌、Meta、亚马逊这些云厂商,OpenAI、 苹果 也多次传出与这类ASIC定制芯片厂商合作的消息。近日苹果便传出正在开发AI服务器芯片、正与博通合作开发该芯片网络技术的消息,OpenAI此前传出已与博通合作数月构建AI推理芯片。
ASIC创业公司网罗客户
云厂商自研大模型并通过投资绑定了一些大模型创业公司,与ASIC定制厂商合作的自研芯片用于这些大模型训练和推理,不需要依赖外售。ASIC创业公司则不同,它们选择了不同的芯片代工商,并需要自己寻找客户。
其中,推出了晶圆级芯片的Cerebras Systems将芯片交给台积电生产,Etched的Sohu芯片采用台积电4nm工艺。采用近存计算架构的Groq LPU芯片对制程的要求没有那么高,用了GlobalFoundries的14nm工艺。
这些ASIC创业公司正在全世界范围内网罗客户,从正加码布局AI的中东国家搜寻客户成为一些ASIC创业公司的共同选择。据Cerebras Systems公开的数据,2023年Cerebras Systems净销售额近7900万美元,今年上半年达1.364亿美元。2023年该公司来自阿联酋阿布扎比的G42公司的收入占总收入83%,G42还承诺在明年购买价值14.3亿美元的Cerebras Systems产品和服务。
记者9月在沙特阿拉伯的AI峰会上也看到了Cerebras Systems、Groq和另一家AI芯片初创公司SambaNova Systems的身影。Cerebras Systems当时与沙特阿美签署了谅解备忘录,沙特阿美计划用Cerebras Systems的产品训练和部署大模型。
Groq则与沙特阿美的数字与技术子公司合作,计划在沙特建设全球最大规模的推理数据中心,该数据中心今年年底建成投运,初期包括1.9万个Groq LPU,未来有望扩展至20万个 LPU。据SymbaNova Systems官网消息,该公司也与迪拜公司Solidus AI Tech合作,计划为欧洲的高性能计算数据中心提供SymbaNova Cloud,并与在中东、南亚、欧洲、非洲地区开展业务的Canvass AI公司合作,向企业提供AI解决方案。
此外,据企业官网消息,SymbaNova Systems与美国阿贡国家实验室合作。Groq则与面向美国和加拿大政府部门提供IT方案的厂商Carahsoft 合作,并与能源领域的Earth Wind&Power合作,计划在挪威建设AI计算中心。
专用与通用之争
GPU和ASIC目前的优缺点都很明显。GPU胜在通用,能运行诸多算法,且英伟达CUDA生态成熟,具备易用性,缺点在于通用的GPU在算力和功耗上会有一定浪费。ASIC相对专用,针对特定算法的设计使算力和功耗表现可能更优。以Groq的LPU为例,该公司称LPU速度比英伟达GPU快十倍,但价格和耗电量都仅为后者的十分之一。不过,越是专用的ASIC越难容忍太多算法,原本在GPU上跑的大模型要迁移至ASIC上运行不一定容易,整体上易用性也低于GPU。
在ASIC愈来愈猛的攻势下,两类芯片是否即将决出胜负?或者说,资本市场对博通的看好是不是“反噬”了对英伟达的市场预期?在博通市值站上万亿美元之时,美股上周五至本周二,英伟达股价连跌三天。“你需要英伟达,但我认为市场也在说,除此之外还有其他受益者。”信托投资公司Truist联席首席投资官基思•勒纳(Keith Lerner)评论称。不过,一些芯片业内人士认为,GPU与ASIC之争可以看作通用芯片与专用芯片之争,从这个层面看,两种芯片在一段时间之内都有腾挪的空间,并非简单的一方取代一方的关系。
从使用场景看,一名业内人士告诉记者,GPU仍要用在大量并行化通用用例中,在此之外的其他需求可以使用成本更低的ASIC,例如在推理端使用低功耗的AISC。麦肯锡的研究也认为,未来AI工作量主要转向推理,到2030年,配备ASIC芯片的AI加速器将处理大多数AI工作负载。
但具体未来ASIC能拿下多大的AI芯片市场份额,可能仍有变数,这种变数来自GPU对ASIC芯片优点的吸收。安谋 科技 产品总监鲍敏祺向记者表示,GPU不一定会被其他芯片取代。GPU主要在AI云端应用,GPU更容易接入openCL cuda或者SYCL这种软件编程生态模式,具备便利性。而从能效角度看,GPU会带来更多的多线程上下文切换开销,这些开销不容忽视。由此看,未来在端侧场景,GPU和其他芯片会逐步走向融合,而不是互相取代。就像英伟达H100的Tensor Core(张量处理单元)已经引入了更多Tensor专用的技术,芯片之间已经在取对方的长处逐步弥补自身的短处。
千芯科技董事长陈巍也认为,针对诸如能耗高等短板,GPU仍能在自身范畴内进行改良,这种改良正是吸收了专用芯片的长处。
“GPU和其他AI芯片架构之间,两方面力量在博弈,新旧此消彼长。微软、特斯拉、谷歌等已经走向研究更专用的芯片的路线,英伟达虽然做的还是GPU,但它的路线也从原来的传统GPU转向更专用的计算结构,其Tensor Core部分已经明显超过原来的CUDA Core部分。” 陈巍告诉记者。
目前已经出现了越来越专门针对大模型的ASIC芯片,通过更极致的专用性提高芯片效率。例如Etched将主流大模型所基于的Transformer架构固定在芯片Sohu上,声称一台集成8块Sohu的服务器性能匹敌160个英伟达H100 GPU。陈巍告诉记者,他猜测后续也可能出现针对大模型应用的专用GPU,GPU厂商有比较高的概率会进一步改进Tensor Core结构,从而牺牲掉一部分对显存的支持能力。
不过,这种极致的专用性也是一把双刃剑。另有业内人士向记者表示,当前AI的主流架构是Transformer,未来随着AI架构演进,Transformer不一定是终局,在此过程中,通用的GPU一直能被采用,但当AI主流架构发生变化时,特别专用的ASIC芯片将无法适应。
从这个层面看,ASIC也需要考虑舍弃通用性的风险。“(GPU通用性的重要性)确实如此。” 鲍敏祺告诉记者,当Transformer改变,GPU将有优势。以NPU为例,一方面,原本的DSA(特定领域架构)可能无法应对算法流程变化,因此对一些向量计算需要考虑引入更多通用能力。另一方面,在具备通用计算能力的情况下,芯片则可能没有针对特定计算类型进行优化,导致遇到性能瓶颈。因此设计时既要引入更多通用计算能力以适应算法等的变化,又要平衡通用计算能力和执行特定任务的性能。
【来源: 第一财经资讯】