AI服务器成本分析 英伟达疯狂敛财
为人工智能训练和推理建立数据中心的热潮已经导致市场疯狂。例如,Credo上周上涨了 27%。Vicor 上涨了 30%,还有许多其他公司与 Nvidia 并驾齐驱,但在笔者看来,他们都不值得今天的受益,而且另一方面,许多公司没有得到他们应得的适当荣誉。
IT 预算有限。它们可能会有所增加,但鉴于宏观 经济 的不确定性,大多数企业的资本支出和运营支出最有可能必须保持固定。因此,Nvidia 销售的主要繁荣直接来自购买较少的非 GPU 服务器。市场已经认识到,由于 AI 支出的转移,传统 CPU 的销售将会疲软。Nvidia 在今年余下时间的数据中心收入高于英特尔数据中心,这清楚地证明了这一点。
以上是仅标准 CPU 服务器的示范性成本明细。典型的 CPU 服务器差异很大,因此请务必认识到这只是我们认为高性能但高容量的负载。对于大量购买者而言,总成本约为 10,424 美元,其中包括原始设备制造商的约 700 美元利润。内存几乎占服务器成本的 40%,每个插槽 512GB,总计 1TB。服务器周围还有其他一些内存,包括网卡、BMC、管理网卡等,但这些对于 DRAM 端的总成本来说是微不足道的。我们确实将这些组件包含在上下共享的 BOM 成本中。
NAND占总BOM的14.7%。不可否认,许多人已经转向网络存储,所以这个数字比更现代的架构应该有的数字要高得多,但这更多是因为其他服务器有大量的 NAND 和很少的其他东西。内存作为一个整体的成本是传统服务器部署成本的一半以上。值得一提的是,在这个成本计算中,我们忽略了网络。
总的来说,虽然仍然会有很多普通服务器,但随着人工智能时代的到来,它们的比例会降低。单位服务器的百分比将低得多,但以美元计算,差距是巨大的。随着数据中心转向加速计算,分配给各种组件的成本发生了巨大变化。Nvidia 的 DGX H100 售价约为 270,000 美元。下面的成本明细包括 Nvidia 在 GPU + Switch 基板和整个 DGX 服务器上的标记。
另外,我们还有一个 8 GPU + 4 NVSwitch 基板 BOM 成本明细,包括供电、内存、组装、冷却、GPU 成本、CoWoS 成本、裸片成本、成品率成本、HBM 成本等。
Nvidia 每台 DGX H100 的毛利润接近 190,000 美元。当然,研发和其他运营费用会降低很多。无论如何,尽管每台服务器的 DDR5 内存增长到 2TB,但这种巨大的利润率伴随着内存成本占服务器百分比的巨大变化。前端网络中还会有其他基于 CPU 和存储的服务器,但在排除 HBM 时,AI 服务器本身分配给内存的总成本不到 5%。
HBM 成本显然非常重要,特别是考虑到 Nvidia 目前正在单一采购其所有 HBM3。我们在下面为订户分担这些费用。
GPU一卡难求,专家:至少等六个月!
谷歌首席执行官将人工智能革命比作人类对火的驾驭. 现在,要是这个行业能够确保数字引火物为其提供燃料就好了。
作为新一代人工智能系统生命线的先进芯片的短缺引发了一场锁定计算能力和寻找解决方法的竞赛。用于 AI 的图形芯片或 GPU 几乎全部由制造。但随着ChatGPT 的病毒式成功,对它们的需求激增远远超过了供应,ChatGPT 是一种能够以类似人类的方式回答问题的聊天机器人。
“因为存在短缺,这与你认识的人有关,”Lamini 的联合创始人兼首席执行官 Sharon Zhou 说,Lamini 是一家帮助公司构建人工智能模型(如聊天机器人)的初创公司。“这就像大流行期间的卫生纸。”
亚马逊网站和等云服务提供商微软可以向 ChatGPT 背后的公司 OpenAI 等客户提供的处理能力。AI 开发人员需要服务器容量来开发和操作他们日益复杂的模型,并帮助其他公司构建 AI 服务。
即使是世界上联系最紧密的 科技 企业家也在努力确保产能。在 5 月 16 日关于 AI 的国会听证会上,OpenAI 首席执行官Sam Altman表示,由于处理器瓶颈,如果使用 ChatGPT 的人少一些会更好。
“在这一点上,GPU 比药物更难获得,” Elon Musk在 5 月 23 日告诉华尔街日报CEO 委员会峰会。
不过,成为马斯克有其好处。知情人士称,今年早些时候,急需甲骨文计算能力的初创公司突然被告知买家抢购了甲骨文的大部分备用服务器空间。知情人士说,初创公司被告知买家是马斯克,他正在打造自己的 OpenAI 竞争对手 X.AI。
获得数以万计的高级图形芯片对于培训可以生成原始文本和分析的大型 AI 模型的公司来说至关重要。创始人说,如果没有它们,人工智能背后的大型语言模型的工作就会运行得慢得多。Nvidia 的高级图形芯片擅长同时进行大量计算,这对于 AI 工作至关重要。
瑞银分析师估计,较早版本的 ChatGPT 需要大约 10,000 个图形芯片。马斯克估计更新版本需要 Nvidia 先进处理器的三到五倍。
一些 投资 者正在梳理他们的网络以获得备用计算能力,而另一些投资者则在协调处理器和服务器容量的批量订单,这些处理器和服务器容量可以在他们的 AI 初创公司之间共享。据 AI 投资者和初创公司称,初创公司正在缩小他们的 AI 模型以提高效率,他们购买自己的带有相关图形芯片的物理服务器,或者转而使用甲骨文等不太受欢迎的云提供商,直到短缺问题得到解决。
其他创始人只是乞求亚马逊和微软的销售人员获得更多权力。
周说,她与一位前 Nvidia 工程师共同创立的 Lamini 拥有所需的芯片。她和接受《华尔街日报》采访的许多其他创始人拒绝确切说明他们是如何获得这些资产的。
“业界对 GPU 的需求强劲,”OpenAI 发言人表示,并补充说该公司致力于确保其客户拥有所需的容量。
甲骨文和马斯克没有回应置评请求。微软和亚马逊拒绝置评。
Nvidia 最近表示,它正在扩大供应以满足不断增长的需求,但许多 AI 创始人预计短缺至少会持续到明年。对 Nvidia 产品的需求推动该公司股价上涨约 167%。芯片成本各不相同,但一些零售商以约 33,000 美元的价格出售 Nvidia 的高级 AI 芯片,尽管在需求旺盛的情况下它们可以在二级市场上获得更高的价格。
一些公司正在封锁云容量,因为担心他们以后无法访问它们。“人们现在只是继续为它们付费,即使他们不需要它们,”Arthur 的首席执行官 Adam Wenchel 说,该公司开发工具来保护公司免受数据泄露等 AI 风险的影响。
创始人和投资者表示,能够获得计算能力的公司仍需等待数周才能使用它。Perplexity AI 的首席执行官 Aravind Srinivas 说:“即使你已经预付了费用,也不意味着 GPU 会在第二天或一周内送到你这里来。”该公司构建了一个人工智能驱动的对话搜索工具。“你只需要等待。”
服务器制造商及其直接客户表示,他们需要等待六个月以上才能获得 Nvidia 最新的图形芯片。Supermicro的首席执行官表示,该公司的图形芯片系统订单处于历史最高水平,该公司正急于增加制造能力。
所有这些都为这些先进的芯片创造了二级市场,部分涉及大型加密公司,这些公司在繁荣时期购买芯片进行采矿,而现在在数字货币市场低迷的情况下不需要。
AI研究公司Generally Intelligent的首席执行官邱侃君自去年以来一直在为自己的服务器购买先进的图形芯片,以渡过当前的短缺。一位风险投资家最近给她发消息,询问她是否有闲置产能可以出租给其他初创公司。秋还没有决定是否放弃她的芯片。
与此同时,OpenAI 的奥特曼和其他员工一直在处理来自在其平台上构建人工智能服务的公司的投诉。
为医生开发人工智能助手的 Nabla 的首席执行官兼创始人亚历克斯勒布伦表示,OpenAI 的软件可能需要长达两分钟的时间来响应查询。Nabla 使用 AI 自动生成笔记、推荐信和临床建议,其客户希望这些笔记能够立即生成。
Lebrun 说,作为一种解决方法,Nabla 已经构建了一些更简单的模型来更快地生成材料的初稿,然后依靠最新版本的 ChatGPT 进行最终调整。“优秀的初创公司是那些学会如何解决所有这些限制的公司,”Lebrun 说,并补充说他直接向 Altman 提出了这些问题。
Altman 和其他 OpenAI 代表告诉创始人,该公司正在与其最大的投资者和数据中心提供商微软合作解决这个问题。
【来源: 半导体行业观察 】