微软谷歌亚马逊Meta们,开始抢电了?
最近,全球科技巨头都在积极规划和建设新的数据中心,以支撑日益增长的 AI 算力需求。2024 年 4 月份,微软与 OpenAI 计划投资1000亿美元建立一台“星际之门”超级计算机,而 Meta、谷歌、亚马逊等科技巨头也都在数据中心的部署上雄心勃勃。但是与此同时,这却给美国的电力系统带来了隐患。
前阵子模型微调平台 OpenPipe 创始人 Kyle Corbitt 爆料称,如果在美国一个州内使用超过十万个 H100 芯片,就会使电网瘫痪。目前,数据中心已经占到了美国总电量的 2.5%,相当于一个纽约市的用电量。据预测,在未来的两到三年内,AI 的用电量或将翻倍。这一增长不仅对美国的电网稳定性构成了考验,也将给全球的能源需求和能源转型增加负担。
所以 一方面,AI 巨头们正在“抢电”,在全球范围内为数据中心选址,以保证电力供应的充足;另一方面为了应对 AI 用电荒,科技公司也正在投资各种新技术,增加清洁能源未来的储备,这其中核聚变发电作为一种潜在稳定、高效的清洁能源技术,外界正在对它的商业化寄予希望。
在这场巨头们的竞赛中,AI 未来 3-5 年带来的电力短缺到底有多少?如果大基建跟不上,巨头们的解决方案还有哪些?本期《硅谷101》邀请到了微软能源战略部资深项目经理徐熠兴 (Ethan Xu) 与瀚海聚能 CEO 项江,一起掀开数据中心的电表看一看。
以下是部分访谈精选:
ChatGPT一天耗电量约等于将近2万户美国家庭
《硅谷101》: 现在AI到底有多耗电?有没有一些数据或者研究报告给大家一个整体的印象?
Ethan: AI 的耗电主要是在数据中心这个地方,哪怕现在 AI 都还没有大规模开始利用,数据中心已经占到了美国 2.5% 的电量,大概已经相当于一个纽约市的用电量。而现在波士顿咨询的分析称,在 2030 年以前,美国用来支持 AI 数据中心的负荷容量将会达到 45 吉瓦甚至更高。 (家庭用电中我们的一个用电设备可能只需要几千瓦,吉瓦是一个非常大的单位。)
也就是说在 2030 年以前, AI在美国的用电量可能会从现在占美国的 2.5% 一直增长到 7.5%,甚至百分之十几都是有可能的。虽然这里也有很大不确定性,但是可以确认的就是 AI 用电量会大规模快速增加,有可能两到三年就会翻一倍,用电量是非常大的。目前来讲,美国的电力系统其实远远不足以满足 AI 未来 5 到 10 年的电力需求。
项江: 还有一个更形象的比喻啊,现在我们看到大家熟知的ChatGPT,它每天的日耗电量能达到 50 万千瓦时,也就是 50 万度电。对于美国的一个普通家庭,单日用电量大概也就是 20- 30 度,那么算下来, ChatGPT 一天的用电量约等于将近2万户美国家庭的日耗电量。
《硅谷101》: 前阵子的新闻说OpenAI在测试ChatGPT5.0的时候,把微软的电网搞崩溃了,这个具体是怎么回事呢?
Ethan: 对,我大概解释一下这个情况。其实电网的设计基本上是针对用电负荷来进行的,比如说你的用电负荷需要 100 兆瓦,那你在接入电网之前,电网会设计出两条 200 兆瓦的传输线去给这个用电设备供电,也就是说即使其中一条传输线出问题了,还有另外一条也可以供电,所以总体来说不应该会有问题。因为以前的数据中心是一个稳定的用电量,一天 24 小时都是比较平稳的状态。
但是 AI 确实是一个很特别的负载,无论在训练还是使用时,它的用电特征都会很不一样,会在几秒内出现巨大的摆幅,比如它的用电量可能从100%骤降到10%,而下一秒又回升到100%。
这是一个非常新的课题,因为电网是希望看到一个比较平稳、比较有规律的、缓慢变化的负载,以前从来没有一个用电设备会出现这么大规模的波动,AI 的出现对电网系统的稳定性造成了一定的挑战。我觉得研发人员也是最近才发现这个问题,所以现在还没有得到很好的解决。
美国电网在未来三五年的挑战
《硅谷101》: 美国这么多年,电力一直在一个非常平衡的状态。所以突然增加了AI这么大的一个消耗量,美国就会进入到一个电力短缺的状态中。
Ethan: 是的,在过去 20 年,美国的经济增长并不依靠用电或者是能量的消耗,这点和中国很不一样,中国的 GDP 增长和用电增长是强相关的,有时候你甚至可以通过中国某个省的用电增长而推导出它的 GDP 大概增长多少。
而美国过去 20 年完全是另外一种模式,它每年的用电增长只有0.5%,所以这也就意味着,对于美国来说,电力需求大规模增长大概是整个电力行业整整一批从业人员职业生涯里都没有经历过的事情。
所以如何尽快设计未来的电网、能够适应人工智能的负荷增长,对美国现在的整个电力行业而言都是一个巨大的挑战,而对于政策的制定者来说同样也是巨大的挑战,因为在美国建设电网前,你需要建设电站,需要建设传输线,但是美国的很多土地都是私有的,也就意味着如果你要建设电网、升级电网和传输线肯定要经过很多私营土地,而这些可能都会涉及到千千万万的居民。那怎么能够说服地主允许建设电网、允许建设传输线呢?这都将是问题。
《硅谷101》: 那如果说在此之前电网没有建好,它会影响到普通的居民用电吗?
Ethan: 我确实觉得 美国电网在未来三五年可能会遇到一个比较大的挑战 。因为去年可以被看作是 AI 开始爆发的一年,那也就意味着正是从这两年开始,很多科技巨头开始规划他们未来的数据中心,尤其是给 AI 使用的数据中心。建设一个数据中心大概要两年时间,但是电网的建设却要慢得多。
首先美国建设一个发电站,就需要大概三五年的时间,然后建设一条长距离高容量的传输线,可能需要八年甚至十年的时间,当电网的建设速度跟不上 AI 增长速度,未来在美国很多地区都会出现用电紧张的情况。所以我觉得 AI 和居民抢电这个情况可能不一定会出现,但是AI 在某些时间段的用电可能将会受到限制。
《硅谷101》: 为了做这期节目,我看了一下硅谷巨头们最近布局数据中心的情况。首先是Meta,他们今年花 8 亿美元在美国印第安纳州做了一个 AI 数据中心,而谷歌投资了 10 亿美元在英国跟爱尔兰建立数据中心,亚马逊投资了 6.5 亿美元建立了一个核动力的数据中心园区。
微软听说要耗资 1000 亿美元打造一台叫做“星际之门”的人工智能超级计算机,预计在 2028 年推出。这个数据中心建成以后会比现有的数据中心效率高出 100 倍。能看到巨头们接下来在能源方向的投资是非常果断的。
但是数据中心的核心制约是电力问题,大家未来会怎么去给数据中心选址呢?你觉得现在大家会存在一个抢夺新的数据中心点的行为吗?微软内部对这个问题是怎么考虑的?
Ethan: 这是个非常好的问题,怎么去选址,怎么去找电,这确实是微软和其他科技公司面临的一个巨大挑战。我们可以把它拆解成两个小问题来解决:
一个是短期怎么去找电。
因为现在这个数据中心不能等了,而美国电网上的容量其实就这么多,谁先发现这个容量,谁去申请、谁去谈判,谁去把这个合同签下来,那谁就拿到了那个地区的容量。所以科技公司们会根据美国现有的电力系统情况进行大规模的分析,找到这个电网上有哪些变电站,有哪些节点是有一定容量的,然后把那些容量迅速拿下。
就短期而言,这是各个科技公司正在竞争的一件事情,大家会去抢这个有限容量资源。但长期来看这显然是不够的,也没有办法满足任何一家公司的需求。
长期来说,各大公司包括微软在内,都在做的一件事,就是积极和美国各个地方的电力公司去合作,让他们知道未来的数据中心负荷是会大规模增加的,提前5-10年开始做基础设施的规划,确保这些电力公司在做长远规划时能够把这个负荷考虑进去,规划出足够的发电站和足够的高压传输线,并且能够按时建设,支持 AI 的发展。
还有一个方向就是微软和几个大公司,包括亚马逊、谷歌等等,其实都一直在用自己的投资部门 去投资不同的新科技 。这其中就有核能,包括核聚变技术,也包括大规模的储能,比如长时储能技术、制氢技术等等。
他们希望通过投资这些技术,让这些技术公司能够发展得更好,能够用更快的速度、更低的成本实现规模化,希望至少某一些技术能够取得突破。这些投资其实也是在能源转型,还有对抗气候变化的这样一个大背景下进行的。
解决碳中和最后5%的目标,成本指数级上涨
《硅谷101》: 在这样一个大背景下,其实很多科技公司承诺要使用绿色能源。那有了 AI 后,如果大家还要用绿色能源,它整个的成本上会有什么样的变化吗?
Ethan: AI 基本上就是去年和前年开始发生的事情,而能源转型和对气候变化的关注是在更早的时候就已经开启了,所以像很多大的公司,包括微软、谷歌、亚马逊、 Mata 等等,他们其实在 AI出现之前就已经向公众做出了承诺,比如说微软的承诺是在 2030 年以前要实现 100% 使用 100% 清洁的能源,亚马逊的承诺是在 2040 年以前实现碳中和等等。但是 这些承诺当时是没有考虑到 AI 的 。
其实这些公司在做这些承诺的时候,他们的目标就已经设得足够高、足够难了,因为我们都知道能源转型本身就是一件非常艰难的事情。举个例子,比如我们今天说美国电力系统不够好,但这个不够好的电力系统也是美国努力建设了 100 多年才建设成今天的。总体来说在没有 AI 之前,要实现能源转型的成本就很高,如果加上 AI 之后,这个成本有可能会翻倍。
并且在能源转型中,你实现 90% 碳中和的成本都是相对可控的,最大的困难是能源转型进行到最后5%、10% 的时候。就比如说你已经实现了90%使用的都是清洁能源,但是你想实现 95% 甚至 99% 都使用清洁能源时,它的成本就几乎是指数性的增长。
之所以会出现这样的情况,最主要的一个原因就是我们现在依靠的很多清洁能源。比如风能和太阳能,它们都不是完全可控的,有风和太阳的时候,可以获得能源,但是没有风和太阳的时候,你就没有这些能源了。这意味着你需要建设很多的储能或者是其他的设备和装置,才能够实现 100% 的清洁能源,所以导致实现最后5%的承诺时,成本会指数级别地增长,难度非常大。
现在如果再把 AI 加进去,这个难度就更高了,所以目前来说所有的大厂都还在维持自己碳中和的目标。但是再过几年,如果他们意识到这个难度比预先想的要难好几个数量级的话,我不是很确定他们还会不会继续坚持以前定的目标。
《硅谷101》: 会不会我们现在之所以要用很大的电量跟很多的能源去发展AI,是因为现在大家还在一个训练模型的阶段,而当数据就终结了,它不再用投入那么多算力去训练,反而在耗电的问题上也就结束了?
Ethan: 现在确实大部分的AI能耗是用在训练AI模型上,但是我的理解是这些模型训练出来之后,它之后的推理应用等等,那才是最大消耗能源的地方。推理比训练更消耗能源。
因为训练的目的就是要使用它,所以你一旦训练出来之后,很多年可能都在用这个 AI 模型,用电量的话可能要比你训练那几个月的用电量大得多。
项江: 是的,Ethan这个解释要更加长远,你看像现在谷歌训练出来大模型之后,它肯定要用到自己的搜索算法里边,以及现在微软已经把AI整合到的 Bing 里面去了。那么在后续的用户带来的电力的需求比他现在训练的需求肯定要更大。
Ethan: 还有一点可能值得提一下,就是 AI 能给我们提供的答案会比单纯检索的谷歌搜索提供的答案更好。但同时 AI 每做一次搜索,或者是每一次问 AI 问题所需要消耗的电量也比只是单纯去检索以前的数据要大很多倍,几十倍甚至上百倍。所以 AI 的用电量相对于搜索来说是更大的一个用电消耗。
《硅谷101》: 今年英伟达在发布新的芯片 GB200 的时候,我注意到它们有两大特征:一个是算力增加,第二个就是更加节省能耗。所以我们看到芯片在设计的时候,它已经是把节能考虑进去了。在这种情况下,随着芯片变得越来越节能,你觉得 AI 的能耗是有可能降低的吗?
Ethan: 英伟达在 GTC 发布新的 GPU 时,公布了它的新的 GPU 的参数,并且和之前的 GPU 的参数做了一个对比,所以基本上来说使用以前的 GPU 训练,大概需要 15MW的电力,需要 90 天, 8000 个GPU,而使用新的 GPU 的话只需要 2000 个GPU,只需要使用 4MW 的电力,也就是说基本上它的电能消耗降低了 70% 左右。
所以我觉得有两个大的力量在推着 AI 的能耗往前走, 一个力量就是对 AI 的使用会把 AI 的能耗推高,还有一个力量的话是 GPU 能耗的效率提高,会把 AI 的能耗降低,现在就看哪个力量会更强大。
当然总体来说,如果参考过去很多科技进步的一个曲线,基本上我们的单位能耗会越来越低,效率会越来越高。但是有时候效率越高,会导致市场对它的需求也越高,对它的应用的场景也会变得更加多,所以这个趋势最终还是会推高人工智能的用电量。
所以, 我觉得在 GPU 上有可能也会出现类似的情况,就是它的能耗降低了很多很快,但是因为能耗的降低可能会导致更多的人在更多地应用,会需要更多的GPU,最后还是会导致总体能耗的增加。
AI电力荒的解决方案
《硅谷101》: 所以核聚变发电也是微软的一个解决方向吗?
Ethan: 没错,我觉得核聚变现在已经成为了几个大公司都非常期待能够实现的一个技术,他们都下了很大的赌注。既然能源构成中需要一定比例既清洁又稳定并且 24 小时都在线的能源,而现在看来,这样的能源有且只有一个,就是核能,可以是核聚变,也可以是核裂变。
以及我们看风能和太阳能,因为它们资源比较丰富的地方往往是离用电中心比较远的地方,所以需要大量的基础设施建设,比如在建设过程中实际上需要配套很大规模储能,配套很大规模的传输线。
而我们之前有做过一个研究,发现如果你使用核能的话,其实一方面对风能和太阳能建设的需求就降低了很多,另一方面,核能还可以建设得离负荷中心不那么远,也就意味着对传输线的建设需求就少了。
同时核能对传输线的利用率也非常高,像核电站的话,它的利用率大概在 93% 以上。相对而言,太阳能的利用率可能只有 25% 左右,风能大概 40%,都远远比不上核能对传输线的利用率,并且核能对土地的利用率效率也非常高。
所以核能的技术突破我觉得无论对整个社会、对能源界还是对人工智能领域,都是一项非常非常重大的技术突破,我个人也非常期待它能够尽早实现。
但是微软的策略之一是,在大规模下注核能的同时也要准备好应对,如果核聚变没有办法尽早变成现实,那怎么办?所以微软同时也在投资很多其他清洁能源的技术,这样的话就有一个备用的计划。
《硅谷101》: 其他清洁能源技术包括哪些?
Ethan: 其他清洁能源技术也基本上是围绕如何更好地利用清洁能源展开的,比如说光伏,如果有不一样的光伏材料,可能光伏的利用率就能从 25% 提升到百分之三十几,这是一个很大的突破。
同时将来可能会用到很多储能。 长时储能的作用就在于,它可以把比如春天和秋天剩余下来的清洁能源储存起来,在夏天和冬天去使用。 这样就可以很大程度上解决风能和太阳能不确定的问题。但是长时储能在现在这个阶段实际上有着非常大的技术瓶颈,所以怎么能够更好、更便宜地进行长时储能非常关键。
能源转型还有很大一块是工业界的转型,工业上对能源使用的转型在技术难度上其实是非常大的。这其中就涉及到大规模的制氢—— 氢气的制造,同时还一定会有一些二氧化碳的排放,这都是很难完全消除的。 那如果你没有办法避免二氧化碳排放的话,就需要开始投入一些碳捕捉的技术,来捕捉二氧化碳,这也是非常重要的技术。我们预计未来终局的话,可能会出现5%- 10%左右的二氧化碳排放是没有办法避免的。
《硅谷101》: 既然核能分为核聚变跟核裂变,而核聚变现在在技术突破上可以说还是有困难,那么核裂变的主要问题是什么呢?
项江: 其实 核裂变的技术门槛比较低,在美国和中国发明核武器原子弹之前,就已经实现了对核裂变所释放能量作为电站的技术路径。 也就是说,核裂变电站在四五十年代就可以做到了,那么后面这么多年,我国在核裂变发电上的发展和突破其实都是关于它的安全性问题。
为了防止核裂变之后发生核泄漏,核裂变电站需要很多的防护层。当时福岛核电站事件就是因为散热系统出了问题,而核裂变是一个链式反应,它不能快速停止,当散热系统跟不上时,它的堆芯就会发生急剧的热量堆积,产生堆形容,再把外边的防护层烧坏掉。而我们现在的三代堆、四代堆解决的问题就是在防护层等方面的工作。
但是实际上还有一个大家没有注意到的问题,就是 核裂变的原材料问题,核裂变电站现在用的主要是铀 235。首先铀 235 来源于油矿,而中国的油矿储量并不大,并且油矿里面更多是铀 238,铀 238 里面的千分之七才是铀 235,所以说整个铀 235 的储量,大概也就四五十万吨。那么也就能满足五六十年的全球用电。实际上它存在着原材料会被耗尽的问题,正因如此,核裂变不能作为人类能源的终极解决方案。
还有一个问题大家还要考虑到,就是 核废料的处理问题,因为它是高放射物,它在核反应之后产生的一些锕系元素,半衰期会长达上亿年甚至上百亿年这么长的周期 。那么我们目前对这种核废料的处理主要是把它封在铅罐、水泥里边,然后深埋在地下,但这个处理方式就像一把达摩克利斯之剑一样,悬在我们子孙后代头上。
所以中国在十年之前就提出,在发展核裂变电站的同时,要提出解决核废料的处理方案。
《硅谷101》: 那么核聚变现在发展到一个什么样的程度了?你觉得我们什么时候可以用上核聚变发电?
项江: 在 2017 年之前核聚变商业化公司成立得少,因为它的资金需求太大,而那时候的资金关注不在这个方面。但是在2017年之后,大家又提出了一些创新的一些手段,比如说原先的核聚变技术托克马克,是资金门槛最高的一种技术路线,动辄要数百亿甚至上千亿这样的资金体量。
而现在除了托克马克之外,又出现了一些小成本能快速迭代的技术路线。比如说我们现在对标的美国公司叫 Helion Energy,这也是得到了 Sam Altman 投资的公司。
它就是利用小型化的装置,采用的是跟我们一样的直线型的这样一个技术路线,装置的建造成本可能还不到托克马克的零头,大幅降低了核聚变技术的资金门槛。所以它现在跟微软签订了一个对赌协议,承诺在 2028 年给微软提供 50MW的电站。
《硅谷101》: Helion跟微软去对赌,它的底气是什么呢?
项江: Helion 跟微软签的供电协议里边,每度电供应的价格写的是一度电一美分。美国很多地区的居民用电是 10 美分,在加州可能会是 20 美分,也就是说,一度电一美分,这可是比我们现在所有的电力成本都要低的。
Ethan: Helion 签的合同是 2028 年能够实现至少 50 兆瓦的供电,我们希望他们能够实现,但也知道这个难度是比较大的。所以其实微软投资这个公司或者签这个合同的主要目的也是在于能够前期就给他们一个足够强烈的需求端的信号,就是只要他们做出来,我们就一定会买,通过这样的方式去支持这样的创新公司,帮助他们去减少他们面对的风险。
因为其实 无论微软也好,还是其他公司也好,整个社会核聚变的技术是绑在一起的,如果核聚变能够成功的话,对整个社会包括这些科技公司都是一个非常大的利好 。所以微软也愿意去冒这样的风险,签这样的合同,投资这样的公司。
我还想分享个人的一个观点,就是以前 AI 和能源实际上是两条平行的行业,几乎是没有交集的,也是 从去年开始, AI 和能源就忽然就有了交集,而且是一个非常重大的交集 。其实你仔细想这个问题是很有意思的, 一方面AI的发展需要大量能源支持,能源的成本直接就决定了 AI 的成本,同时 AI 的各种运算能力也好、解决问题的能力也好,它可以用来帮助能源行业找到能源转型更好的解决方案。
就比如说电网的调度就是一个很难的问题,电网未来的规划和设计也是一个很难的问题,那是不是可以用 AI 去更好地设计未来的电网,更好地解决调度问题?或者能不能用 AI 去找出更好的化学配比,能够发明出更有效的、成本更低的电池?或者是能不能用 AI 去帮助未来可能的设计等等,这对于能源行业发展来说都是非常有意义的。所以这两个行业正在互相促进、互相帮助,AI需要能源的支持,能源需要 AI 提供解决方案。
相关补充信息:
东数西算工程:“数”指的是数据,“算”指的是算力。“东数西算”是通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动,于2022年2月正式启动。
“托克马克”: 托克马克(Tokamak)是一种环形容器,它通过约束电磁波驱动,创造氘、氚实现聚变的环境和超高温,并实现人类对核聚变反应的控制。托卡马克的名字来源于环形(toroidal)、真空室(kamera)、磁(magnet)和线圈(kotushka)这几个俄语单词的结合,目前是实现可控核聚变的主流方式。中国科学家设计并建成的EAST(Experimental Advanced Superconducting Tokamak,全超导托卡马克核聚变实验装置)是这一领域的一个突出成就。
“氘氘(D-D)反应”&“氘氚(D-T)反应” :是指氢的两种同位素氘(Deuterium,化学符号D)和氚(Tritium,化学符号T)之间发生的核聚变反应。氘氘反应是指两个氘原子核聚合在一起,生成一个氦原子核和一个中子,同时释放出能量。这种反应在自然界中很少见,但在实验室条件下可以被诱发。氘氚反应是将氘核与氚核碰撞而产生的核聚变反应,它是目前研究中最容易实现的核聚变方式之一。
“Helion Energy”: 一家总部位于华盛顿州雷德蒙德市的核聚变公司,专注于开发磁惯约束性聚变(MIF)技术。微软是其长期合作伙伴,计划在未来五年内从Helion购买电力。
本文来自微信公众号: 硅谷101 (ID:TheValley101) ,作者:泓君、徐熠兴、项江