AI的最大瓶颈是什么?

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

Harry: 这里是Harry Stabbings。Poolside宣布完成了5亿美元的B轮融资,公司估值达到30亿美元。今天我们邀请到他们的合伙人兼首席执行官Eiso Kant。


本次访谈涉及LLM的未来、AGI竞赛、芯片和算力层的发展以及更多内容。


很多人都在问Poolside到底是什么?你能否为大家提供一些背景信息,介绍一下Poolside的业务?


Eiso: Poolside正在参与AGI (通用人工智能 的竞赛。我们认为未来的发展趋势是,机器智能和人类能力之间的差距会逐渐缩小。然而,我们认为实现这一目标的路径在于专注于开发最强大的用于软件开发的AI系统。这一切都源自我们的一些核心信念,这些信念与业内其他公司的研究方向和能力发展路径有所不同。


AGI是一个有争议的术语,我喜欢采用一种较为普遍的定义,即未来在所有人类能力领域,机器智能将能够与我们匹敌,甚至超越我们。然而,我们认为那个世界还相当遥远,我们实际上会看到机器在某些经济价值巨大的领域达到人类水平,从而为全球创造丰裕的资源,但这种能力不会均匀地分布在所有领域。


我所指的是,如果你考虑今天的基础模型,我有一个简单的心智模型,那就是我们正在将大量的网络规模数据压缩到神经网络中,并强迫其进行泛化和学习。这导致了这些模型在语言理解方面取得了非凡的成就,但也让我们质疑为何它们无法完成某些任务。我们的观点是,原因在于它们的学习方式。


我认为我刚刚说的最重要的部分是数据的规模。当我们拥有网络规模的数据时,我们可以获得语言理解。但在数据稀缺的领域,模型在学习真正有能力的领域时会非常吃力。我指的是推理的改进、规划能力的提升,以及对事物的深刻理解的进步。而作为人类,我们并不需要那么多的数据。对于模型的理解是,它们需要比人类多出几个数量级的数据才能学到同样的东西。


我们的重点在于软件开发和编程,这是有其特定原因的。世界已经产生了一个非常庞大的代码数据集,为了让大家更好地理解,像是可用于训练的代码,我们称之为大约3万亿个标记。如果你看互联网中可用于训练的英语语言数据,大约在10万亿到15万亿个标记之间。这是一个世界上开发出的庞大代码数据集。


互联网上公开的代码库超过4亿个。那么,为什么我们还没有一个能够胜任所有编程任务的强大AI呢?原因在于编程不仅仅关乎工作的最终输出。我们在线上看到的代码代表了最终产品,但并不代表我们达到这个成果时所进行的所有思考和操作。而这就是当前缺失的数据集。要让模型从现有的水平发展到能像人类一样编写软件,需要的数据集就是那些描述被给予任务后的思考过程的。


所有的中间推理和思考、你所采取的步骤、编写的代码、尝试运行的代码,当出现错误时从中吸取教训的那些互动,直到获得最终产品的整个过程,这些中间的数据集就是Poolside致力于创建的。


Harry: 我立刻联想到《社交网络》中他们在窗户上写代数方程的场景。你如何捕捉那种过程迭代的思维,以及那些原本不存在或未被捕获的数据?


Eiso: 这是个好问题,我的思考方式是,有些问题我们无法模拟。现实世界无法完美模拟,它是混乱的,多变量的。当我们试图缩小人类能力和AI之间的差距时,我们必须收集数据。最好的例子就是埃隆·马斯克和特斯拉。


埃隆在路上投放了数百万辆汽车,这些汽车实际上捕获了每一个启用和停用自动驾驶的情况,并将每一个场景反馈给特斯拉,以便不断训练更强大的AI。如果你看完全自动驾驶在这些年间是如何变得更强大的,那是因为它越来越多地从数据中学习,而不是基于规则,并且越来越多的车上路。因此,我认为埃隆已经在自动驾驶上取得了胜利,因为他们一直在收集和积累这些数据,而这正是需要的,因为这些数据无法模拟。


这正是Poolside的“假动作”。你会认为AlphaGo是确定性的,而现实世界是非确定性的,那么代码处于什么位置?代码更接近于确定性,它遵循一套规则,每次运行时都会以相同的方式运行。这就是我们所说的“执行反馈”。


我们真正闻名于通过代码执行反馈进行强化学习。我们从零开始训练一个模型,把它放在一个环境中,该环境包含13万个真实世界的代码库,规模大了几个数量级,是世界上最大的环境。然后我们让模型去探索不同的任务解决方案,从中学习通过测试的经验和失败的教训。


这背后还有很多细节。但简单来说,如果你能模拟它,你就能构建一个极其庞大的数据集。而我们合成生成的部分不仅仅是输出代码,还包括了到达这个输出代码过程中的中间思考和推理。


目前的模型,你可以通过在线上与任何模型互动来验证这一点,它们可以展示它们的思考,但还做得不够好。所以,当思考能力还不够强时该怎么办?你需要反馈。在我们的案例中,就是确定性的反馈,即代码执行反馈。


Harry: 很多人会把问题分解为算力、数据和算法。如果我们把这三者拿来分析,你认为今天在模型进步的过程中最大的瓶颈是什么?是我们提到的数据,还是其中一个?


Eiso: 我们在基础模型上的所有努力,都是围绕两个目标:要么提升模型训练或运行时的计算效率,要么改进数据的使用方式。这些方面的改进是所有顶尖公司 (包括OpenAI、Anthropic和谷歌) 都在不断追求的,这需要工程和研究的结合。


然而,真正区分不同模型的是数据的质量和使用方式。虽然算力可以帮助提升模型的计算效率,但数据的获取和处理才是使模型变得更强大的关键。以Poolside为例,我们在获取数据时不仅依赖于已有的数据,还通过合成生成的方式来扩展数据量。这意味着我们使用模型来生成新的数据,然后再用模型来评估这些数据的质量,并不断迭代优化。因此,在这个过程中,算力不仅仅用于训练模型,还用于生成和评估数据。


一旦我们积累了大量的数据,就需要通过高效的学习来让模型从中受益。神经网络的学习过程本质上是一种数据的压缩和泛化。当我们使用小型模型时,需要将大量的数据压缩到一个有限的空间中,这往往会导致信息的损失。


相比之下,大型模型由于参数更多、容量更大,更容易在不丢失过多信息的情况下进行泛化。因此,扩展法则被多次验证,即随着数据量、模型参数数量和算力的增加,模型的性能可以显著提升。谷歌和OpenAI已经在这方面取得了许多成功的实践。


当然,模型的规模是有极限的。我们可以把模型的大小比作图像分辨率,小型模型就像低分辨率的图像,虽然能呈现基本的内容,但细节会丢失。而无限大的模型则不需要进行任何压缩。然而,在实际应用中,模型的规模不可能无限扩大,达到某个点后效果的提升会变得不再显著。


因此,算力在这场竞争中至关重要。拥有足够的算力才能支撑大规模模型的训练和数据的高效处理,同时,高质量的数据和专有的研究方法也能带来竞争优势。没有足够的算力支持,就无法在这场竞赛中立足。


Harry: 我想逐个展开讨论一下。我提到了算法、数据和算力,你提到算法是如何提高模型效率的,那么模型的效率是否存在一个极限,会不会在某个点上达到平台期?


Eiso: 如果考虑驱动学习效率的因素,我们今天的学习效率还非常低效。这些因素包括算法和硬件本身的改进。我们在这方面还有几十年,甚至数百年的改进空间,并且会随着时间的推移以不同的形式呈现。


实际上,在未来几年,我们将在硬件和算法上看到越来越多的优势。但我希望大家能够理解,这是基本要求。要进入这个领域,你必须擅长这些,但这并不是你的差异化所在,而是让你能与其他人保持竞争的必要条件。


Harry: 关于合成数据,很多人把它当作解决数据短缺问题的万能钥匙。但问题是,合成数据是否在所有行业中都同样有价值,或者在某些行业中的价值更大?


Eiso: 我认为人们在合成数据上的最大认知偏差在于,模型生成数据来让自身变得更智能,听起来就像是“蛇吃自己的尾巴”,似乎不太合逻辑。现在,你需要从另一个角度来看这个问题。实际上,这个循环中还有一个额外的步骤。我们需要一个机制,从模型生成的所有数据中确定哪些是有用的。


在软件开发领域,我有一个任务,模型会生成100个不同的解决方案。如果我把这100个解决方案直接反馈给模型进行训练,模型不会变得更聪明。这就是“蛇吃自己的尾巴”的问题。但是,如果有一个“真理的裁判”,能够判断哪一个更好,或者哪个是正确的,这时合成数据才有实际的应用价值。


Harry: 在这之前,我想讨论一下扩展法则。你之前提到了一些不同的看法。很多人现在认为我们还只是刚刚触及表面,还有很多空间可以探索,而另一些人则持有更为悲观的观点。你对扩展法则以及我们还有多少发展的空间有什么看法?


Eiso: 我们开始明白,第一代扩展法则是关于训练时提供的数据量和模型的规模。更多的数据、较长的训练时间和更大的模型都需要更多的算力。因此,我们常常说扩展法则是关于使用更多的算力。而这其实比我们最初理解的更为准确,因为合成数据对于模型改进的重要性也是使用算力的另一种形式。但我们在推理时使用它——我们运行这些模型来生成上百种解决方案。


我认为模型还有很大的扩展空间。我们可以通过扩展数据规模和模型的大小来实现这一点。


现在,我们的观点是,参数数量和模型规模的扩展空间还很大。但在我们的行业中,很少有人讨论这一点:训练极其大的模型。这在很长时间内我们都无法实现,因为我们没有足够的算力和资金。这就是为什么这次融资对我们如此重要,因为它为我们提供了扩大规模所需的资金。


但关键在于,行业中的所有人都在努力让这些极大规模的模型在终端用户处实现成本效益。


我们有一个多策略参数模型 (Mov) ,通常在推理时并不是所有参数都会被激活,但模型的规模依然非常大。每次对这个模型的请求费用都不低。因此,我们必须找到一种方法,构建可以为客户实际运行的经济上可行的模型。


在我们的行业中发生的情况 (这也是我们的路径) 是,你先训练一个非常大的模型,这个模型显然具有更强的能力。然后,我们会将其“蒸馏”成一个较小的模型。因为从数据中学习的模型效率很低,但如果结合从一个更智能、更大的模型中学习,则效率会大大提高。我们先构建非常大的模型,使其非常智能,然后再教较小的模型尽量匹配这些智能,这样我们就可以经济上合理地将其推向市场,创造收入。


Harry: 接着这个话题继续讨论一下。我们回到算力这个元素,预计在未来12到24个月内,模型的成本会如何变化?


Eiso: 在讨论大语言模型 (LLM) 时,我们需要清楚区分模型的价格和实际成本。当前,这个领域的竞争十分激烈,尤其是在大型云计算服务商之间 (如亚马逊、微软和谷歌) ,以及Anthropic和OpenAI等“逃逸速度”AI公司的竞争。此外,Meta等开放源代码模型供应商的加入,也进一步加剧了竞争。


要理解成本的构成,我们必须考虑所有关键因素,包括服务器、网络、数据中心、芯片、GPU和所需的能源等。这些构成了资本支出 (CapEx) ,而模型运行的边际成本 (或可变成本) 则是维持这些基础设施正常运行的支出。因此,我们需要评估谁在这些方面拥有最低的成本结构、最少的资本支出,以及最强的垂直整合和基础设施布局。


在这些方面,超大规模服务商 (亚马逊、微软、谷歌) 具有明显的优势。这些公司都意识到,不能完全依赖英伟达或AMD等硬件制造商的产品,因此纷纷开发自有芯片。谷歌的TPU (张量处理单元) 已经迭代到第五代,是最早开始自研硬件的公司之一;亚马逊则通过与晶圆厂直接合作,推出了Trainium和Inferentia芯片,并且在芯片制造方面拥有丰富的经验;相比之下,微软的自研芯片开发还处于相对初期阶段。


当企业购买英伟达硬件并部署到数据中心时,实际上是在为芯片的利润买单,比如H-100、H2百或未来的Blackwell系列。相较于这些第三方硬件,拥有自有芯片的企业 (如亚马逊、谷歌和微软) 在定价上有更大的操作空间。


当前,这场竞争如同“酒吧打斗”,极其混乱且激烈。各家公司都在全力以赴降低模型的成本,以迅速占据市场。它们主要通过两种方式来实现:一是降低硬件成本,使其尽量接近实际成本;二是在算法层面上进行优化,将大型智能模型“蒸馏”为小型模型,从而降低计算成本。如果拥有最先进的大型模型,可以进一步通过蒸馏来提升小型模型的性能,从而在市场上获得优势。


在极端情况下,算力的边际成本,即硬件的边际成本,将变得尤为重要。随着价格不断降低,这种趋势在云计算中也有所体现。因此,降低硬件成本和提升计算效率将是未来竞争的关键。


Harry: 说到这些有价值的领域,你提到了缩小差距,特别是在编程方面。我们之前也讨论过其他领域,比如语音识别。你认为这种缩小差距的方式如何影响价值的体现,以及哪些领域可能不具备这样的价值?


Eiso: 我的想法是,现在世界上有一些我们认为具有经济价值的东西,从科学进步到非常普通的事情,比如充满各种设备的办公楼。为什么我们不能自动化这些事情呢?如果我们考虑什么是有经济价值的,那么接下来需要问自己的是,模型目前的能力与人类水平之间的差距有多大?


在某些情况下,这个差距实际上已经不大了。比如我们刚刚提到的语音识别,当前的模型已经相当接近人类水平,或许还有一点点改进空间,但我们已经几乎缩小了这个差距。在其他领域,这个差距似乎很难弥合,但我们也取得了很大进展。以全自动驾驶为例,如果你体验过最新的特斯拉FSD更新,你会发现这个差距越来越接近弥合。然而,还有一些领域的差距依然很大。


我认为软件开发就是其中之一。我们认为这个领域的差距仍然很大。尽管模型能够作为非常有用的助手,并因此带来巨大的经济价值,但模型与开发人员的合作仍存在巨大差距。我们希望未来能让开发人员与模型协作,甚至有一天模型的能力能超过人类。我提到这些的原因是,我们有一个关于人类能力的讨论。那么, 这个差距有多大?这个领域有多大的经济价值?


接下来需要问自己的是,缩小这个差距的难易程度如何?这取决于数据的获取。我们在哪里可以获得大规模的网络级数据来缩小那些智能差距较大的领域?因为当前的智能差距越大,我们就需要更多的数据来弥合这种差距。如果你用这种方法思考问题,可以看出数据的规模如何与人类和机器智能之间的差距以及其在现实世界中的经济价值相关联。我认为在这些交集点上,就有像我们这样的公司的存在机会。


Harry: 我立刻想到的是GitHub或GitLab。


Eiso: 这不是最理想的地方。GitHub目前拥有非常庞大的数据集,几乎涵盖了世界上所有的代码。GitLab是一个玩家,但它主要集中在私有代码领域。而在开发人员的账户背后,GitHub在公共代码和私有代码上都有巨大的影响力,但私有代码是无法用于训练的,不管是我们还是OpenAI都不可以。所以我们所有人都只能访问相同的公共数据,而这些数据只是输出数据。因此,从能力竞赛的角度来看,是存在固有优势的。


我们公司反复强调的是,世界上存在着能力竞赛。正如你之前提到的,有四个关键因素很重要,我同意你的三个因素,但我要再加一个,那就是人才。人才在这个行业中绝对是关键。在市场竞争中,首先是人才,然后是产品和分销能力。微软在全球分销方面的定位无疑是非常强大的。


Harry: 关于算力元素,我们还没有讨论,当我们认为算力是这一切的基础以及解决许多数据挑战的关键时,6亿美元足够吗?


Eiso: 不够。我们迄今为止筹集的6亿美元,以及最近的5亿美元融资,使我们有资格参与这场竞赛。这意味着,我们今年夏天上线的1万块GPU来自这些资金,使我们能够在模型能力上取得重大进展,因为我们可以通过代码执行反馈进行强化学习,生成大量数据并用其训练非常大的模型。这笔资金足够应对当下的需求,但从长远来看,仍然是不足的。


Harry: 你认为未来需要多少资金?


Eiso: 这是一个非常好的问题。这背后有真实的、物理的世界限制。我们行业中曾经出现过一些惊人的数字,比如计算集群的规模等,但实际上,世界还需要时间来赶上实现这些目标的能力。今天,连接超过3.2万块GPU已经非常具有挑战性,或者说开始可能有能力连接10万块。


但目前,要建立一个拥有100万块GPU或1000万块GPU的集群用于模型训练,既面临需要克服的算法挑战,也存在实际的物理限制。因此,我们还不处于一个无限资金可以带来无限优势的世界。这也是我们能够存在的原因,因为我们有1万块GPU。


Harry: 现金是否等同于算力?我的意思是,如果你有足够的现金,你能直接去购买算力吗?还是事情并非如此简单?


Eiso: 我认为这取决于你有多少现金和需要多少算力。大约一年半前,当我们作为一家公司刚刚起步时,世界上确实存在供需失衡的情况,即使是一家前沿的AI公司刚起步,大家都希望你能成功。英伟达会激励初创企业,而每个人都被激励去让早期公司在算力上取得成功。


作为初创的AI公司,要获得算力比大型企业要容易得多,因为人们理解未来的趋势正朝这个方向发展。但即便如此,需求和供应之间确实存在不匹配,我们必须做大量的工作来理解市场、建立关系,并有从A到Z的多个备选方案来应对。在过去的六个月里,全球仍然存在严重的算力短缺,我们可以看到这种情况。


如果你是一家早期初创公司,有很多路径可以选择。如果你是一家前沿的AI公司,你需要做出决策,决定与谁合作、如何合作以及自己要做多少。我们今天所做的决策将会影响到12到18个月后的算力情况。很少有早期的公司需要现在就做出对未来一年或一年半后物理基础设施有影响的决策。


Harry: 我们是否看到这种供需失衡发生了变化?


Eiso: 全球对GPU和类似GPU的算力的需求远远超过了可用的供应。


Harry: 拉里·埃里森最近在台上说,要参与这场竞赛需要1000亿美元。这是进入门槛。你同意这个作为入场费的说法吗?


Eiso: 如果你想成为一家超大规模的云计算服务商,在全球各地建立数据中心并配置GPU,以便为所有人提供这些模型的服务,那么这可能就是门槛,甚至只是一个起点。看看所有云计算公司在过去几年的大规模资本支出投资,它们的支出远远超过了1000亿美元。


如今,在这场不断追求更强AI、缩小人类智能与机器智能之间差距的竞赛中,我们都在不断推动前沿的发展,并在扩展模型和数据的过程中看到这个差距如何逐渐缩小。我认为没有人能准确回答从现在到未来需要多少资金。如果我们知道这个答案,就意味着我们已经知道结果。我们都在探索可能性的前沿。


Harry: 你很聪明地称其为“醉酒酒吧打斗”。我有一位朋友,他是其中一家超大规模公司的高管,最近他说这就像曼哈顿计划,每个人都想退出,但实际上没有人能退出,因为已经太晚了。大家已经下注,只能继续走下去。你认为我们现在处于什么阶段?这只是冰山一角,还是现有公司还需要投入巨大的资金?你怎么看?


Eiso: 我们需要明确区分支出与实现全球最强AI (如AGI,通用人工智能) 之间的关系,以及如何缩小人类智能与机器智能的差距。


如果我们将这些AI模型视为对智能的投资,那么这些投资必须能为终端用户创造经济价值。这不仅涉及模型本身的创建,还包括许多层次的应用和中间环节。模型的开发属于资本支出 (CapEx) ,而其运行和推理则属于运营支出 (OpEx) 。然而,要让这些模型发挥作用,需要在全球范围内建立大规模的物理基础设施支持。


简单来说,如果我们花费100美元去开发一个AI模型,但它只能为世界带来两三美元的回报,那么这样的投资是没有意义的,市场将会淘汰这种模式。因此,要让AI真正解决世界上的重大问题,并广泛应用于从软件开发到日常生活的方方面面,就需要进行大规模的基础设施建设。


尤其是在推理阶段,这需要在全球各地建设靠近终端用户的数据中心,因为数据处理的延迟至关重要。随着AI应用的扩展,这将成为自云计算崛起以来我们所见过的最大规模的物理基础设施建设之一。因此,实现AGI不仅仅是增加资本投入,还需要综合考虑技术、经济价值和基础设施的布局,以确保智能系统能够高效运行并产生显著的社会效益。


Harry: 关于这种物理基础设施的建设,大卫·卡恩曾说过一句话,他说基本上你不会在同一个数据中心训练前沿模型两次。模型的演化速度已经超越了数据中心的发展速度。你同意他的观点吗?


Eiso: 我认为他说得很对。今天,能够容纳并为越来越多的大规模集群提供足够能量的数据中心数量非常少。两年前的数据中心与未来两年内的相比,在规模和能量需求方面会有显著差异,不仅仅是因为服务器和节点数量的增加。这是推理与训练之间的区别。对于推理,我们不需要所有机器彼此连接或位于同一个地方,而对于训练,我们需要所有机器在同一个房间、同一个地方相互连接。这会极大地改变数据中心的布局。


Harry: 我认为这个节目之所以如此成功,是因为我问了一些大家可能会想的问题:为什么训练需要这些,而推理不需要?


Eiso: 这是个好问题。当我们扩大模型的规模,并在更多的数据上进行训练,使用越来越多的算力时,每一步学习中的数据样本都需要相互交流,并分享它们在优化过程中的学习成果。这意味着,如果有两个相距很远的数据中心,它们之间需要传输的大量信息——涉及数千甚至数万台服务器——会导致训练速度非常缓慢,从而在经济上不可行。而一旦我们运行模型,所使用的服务器数量就会大幅减少。可以将其视为在训练过程中,模型的许多副本被分布在许多机器上,每次接触到数据时都需要相互交流,以不断提高学习效率。


Harry: 我想问一下,关于芯片和算力的建设,英伟达目前是否继续保持垄断地位?还是说现在的竞争更加均衡?


Eiso: 现今的动态情况是,我们都应该感谢英伟达。


当我在2016年进入这个领域时,我们在办公室里堆叠着数台180 Ti的芯片和服务器,而英伟达当时已经意识到AI将会改变世界。除了谷歌之外,没有其他公司有这么深刻的认知,但英伟达对此有着巨大的信念,并不断加码投入,制造出越来越多的先进硬件。随后紧随其后的是谷歌,这也是为什么谷歌的TPU已经发展到第五代,之后是亚马逊。


我特别提到这三家公司,因为它们都在大规模生产芯片,并不断迭代出更快、更好的训练和推理芯片。从芯片的生产量和面向终端用户的上线量来看,它们是这场竞赛中的主要玩家。


此外,还有其他公司在这个领域。比如AMD,作为英伟达的竞争对手,它没有自己的云服务,必须在价格方面与英伟达竞争。因此,其扩展速度完全取决于市场对其芯片的需求。而对于像谷歌和亚马逊这样拥有自己硅芯片的公司,需求的驱动力并不是芯片的需求,而是AI的需求。在我看来,未来的世界将由这三家公司主导,可能会有新的入局者,或者AMD会追赶上来,但我认为主要力量还是这三家公司,微软未来可能也会推出自己的硅芯片。


Harry: 英伟达的新一代Blackwell芯片是否推迟了行业创新的步伐?


Eiso: 不得不说,我对Blackwell芯片的推迟感到高兴。为什么呢?因为我正在使用H2百芯片训练,所以在今年8月底上线的1万块H2百芯片,这意味着下一代芯片的推出延迟有助于我在全球竞争中保持优势。


此外,下一代芯片有很多营销宣传。我们必须区分训练和推理。基本上,每两年英伟达的训练性能都会提高大约两倍,而推理性能的提升也接近两倍。不过,大家对Blackwell寄予厚望,因为它在推理方面可能会带来更大幅度的提升。


Harry: 当Blackwell芯片发布时,考虑到竞争的激烈性,你是否必须升级到Blackwell,并为从H2百芯片升级到新一代芯片花费数亿美元?


Eiso: 我们的思路是,这些芯片每一代的性能提高了两倍,而我们在它们上面进行的操作仍然是相同的——矩阵乘法、加法等数学运算。从训练的角度来看,Blackwell并不会解锁任何新的功能,只是意味着我们可以用更少的芯片完成更多的工作。我的H2百芯片会在市场上变得不那么有价值,但这并不一定意味着我必须升级到下一代。


Harry: 我们提到了Blackwell芯片及其可能带来的变化,很多人已经期待GPT-5很长时间了。你认为GPT-5需要提供哪些功能,才能带来质的飞跃?你觉得它会实现吗?


Eiso: 不论GPT-5能否满足预期,这都不是我们十年后会回顾的问题。十年后,我们将回头看这个时刻,就像我们回顾计算机、互联网、谷歌等早期阶段时一样,意识到当时我们还没有真正理解世界将会释放出多大的价值和丰裕。当我们宣布融资时写了一篇博文,其中提到,在本世纪内,人类要攀登三座大山:AGI (通用人工智能) 、能源和太空。因此,随着我们不断前进,我们将不断挑战下一座高峰。当我们站在这座山顶回望时,会发现之前的山峰在对比之下显得微不足道。


Harry: 你提到了超大规模的公司, 6亿美元对于他们来说,完全不够。


Eiso: 如果回到能力竞赛的要素,包括算力、数据、专有的应用研究,我们会发现,在算力方面,资金投入有直接的一对一效应。但当我们谈到数据、专有的应用研究和人才时,情况就不那么简单了,并不是钱投入进去就能神奇地获得成功。


我认为我们在技术历史上已经有很多例子,比如个人电脑早期的IBM,看起来不可战胜的巨头。如果我们生活在一个资金能完美转化为成功的世界里,那么谁投入更多就会赢得胜利。在通用人工智能的竞赛中,资金对算力至关重要。但请记住,还有时间和物理的限制。训练集群的规模受限于芯片的能力和网络传输的性能,这些限制让我们这样的公司有机会在数据、人才和专有研究方面取得巨大的优势。


Harry: 在这种跳槽频繁的行业环境下,是否真的存在所谓的专有知识?随着人们在公司之间的流动,知识也随之流动,是否还有真正的专有知识?


Eiso: 可以说,确实有大量的知识在公司之间流动。


Harry: 你怎么看待大型企业对这些公司的投资?Poolside是否也有大企业投资?


Eiso: 如果你看我们最近5亿美元的融资,没有谷歌、微软、亚马逊这些超大规模公司参与。这是我们的刻意选择,因为我们认为现在有一条可以独立发展的未来之路。我们必须承认,大家都在同一场竞赛中。


因此,可以在合适的时机做出战略决策,比如是否进行股权关系。但目前我们没有必要这么做,这是我们非常有意识的决定。然而,确实有一家大企业参与了我们的融资,那就是英伟达,因为我们与他们密切合作。我认为,大型科技公司投资前沿AI公司实际上是符合博弈论最佳策略的选择。


Harry: 你认为我们会继续看到小公司的整合,就像在存储领域或其他领域一样,由大公司收购吗?


Eiso: 老实说,能被收购的公司已经很少了。


Harry: 还剩下哪些公司?继续说。


Eiso: Rika,Rika是一支规模较小但非常有能力的团队,至少从外部看来是这样。他们位于欧洲的某个地方。此外,我很难想到还有哪些公司。Anthropic很难被收购,但它确实是这个领域中一个非常有能力的玩家。我主要关注的是大型语言模型和通用人工智能方面的工作,如今已经有很少公司能走得这么远。 (Rika是一家AI创企,由DeepMind、Google、百度和Meta的前研究人员创立。该公司在新一轮融资中筹集了5000万美元,估值约为3亿美元)


Harry: 你可以以156亿美元的估值收购OpenAI,或者以40亿美元的估值收购Anthropic,这是最近新一轮融资的建议估值,或以24亿美元的估值收购xAI,你会选哪一个?为什么?


Eiso: 这是一个不公平的问题,但确实是个好问题。我希望能有机会和每一家公司的现任领导团队共度一天,然后再做决定。它们各自都有独特的优势。


xAI意识到算力的重要性,组建了一支令人难以置信的团队,并以惊人的速度建立了一个拥有10万块GPU、3.2万互联集群的基础设施。OpenAI凭借ChatGPT取得了巨大的成就,并围绕ChatGPT及其API建立了强大的业务,在收入方面领先于其他公司。而Anthropic拥有出色的研究人员,并采取了非常严谨的科学方法推进其工作。所以,我可以看到这三家公司各自的优势,但真正让我决定投资的还是要与每个公司的领导团队进行一日交流后再做出判断。


Harry: 这很棒,幸运的是,这不是你的钱,而是VC的。那么,你会选择哪一家?


Eiso: 我不是一个“全押”的VC。


Harry: 如果你是今天的Sam,你刚刚筹集了60亿美元,你会怎么做?


Eiso: 我认为Sam和OpenAI已经理解了算力和数据的重要性。我想象那66亿美元正是用于这两个方面。从外部来看,我觉得今天作为Sam并不容易。因为通用型模型试图为所有人提供服务的市场竞争非常激烈,你会面临来自各方面的巨大压力。而你在同时构建一个平台和一款消费者产品,更甚的是,这个消费者产品看起来是为所有人而设计的。这是一个非常艰难的任务。


Harry: 这让我想起了一句Elon Musk说过的话,他在一次采访中提到,很多人都觉得做我很有趣,其实并不是那样。这句话让我印象深刻,因为你能听出他话语中的悲伤。


Eiso: 这也是我常常思考的事情,老实说,你的这个问题确实触动了我,因为我真的想过很多次。多年前我就看到过这种情况,我非常理解他的意思。今天早些时候,我和一位我非常尊敬的创始人聊到这个话题,我们开玩笑地谈论起半夜三点醒来、脑子停不下来的情况,并分享了各自应对的方法,晚上回家可能会尝试一下对方的方法。


Eiso: 我认为Elon是少数几个能在这么长时间里坚持这种状态的最令人印象深刻的例子。在很多时候,全世界都不认同他的观点。我认为有些公司是因为出现在合适的时机而得以成功的,而有些公司根本不该存在,因为一切都不利于它们。而Elon不仅一次做到了这种不可能的事情,他多次实现了这样的成就。


这让我想起另一个关于他的采访中的一句话,是彼得·蒂尔说的。他说,当我们所有人和Elon一起工作时,我们认为他非常疯狂,承担了太多风险,然后他去创办了特斯拉和SpaceX,我们觉得他更疯狂了。如果这两家公司中有一家成功了,我们会说他走运了。但两家公司都取得了成功,并且超越了预期。Elon对风险的理解与我们其他人不同,这是我今年思考最多的两个引用之一。


Harry: 另一个精彩的蒂尔名言是他曾将加密货币和人工智能作比较。他说,如果加密货币代表去中心化,那么人工智能就代表中心化。


Eiso: 我在2008年高中时创办的第一个初创公司就是一个虚拟数字货币项目。这些年来,我对加密货币的看法变化很大。去中心化的概念及其对世界的潜在意义是令人惊叹的理想。然而,我们在加密货币中看到的问题是一句我学到的格言,可能是我的高中经济学老师说的,“劣币驱逐良币”。


在不良行为者进入的环境中,他们会驱逐那些好的行为者,因为我们更愿意与其他好的行为者共事。我认为加密货币的承诺最初是由优秀的参与者推动的,但由于快速赚钱的诱惑和扭曲的激励机制,吸引了大量的不良行为者。这些不良行为者逐渐驱逐了许多优秀的参与者,尽管在这个领域中仍有一些真正的理想主义者。


然而,在人工智能领域,我们没有这样的情况。我们有一群人,尽管对实现目标的方法存在分歧,但大家都认同在未来10到15年里,当我们回顾这个时期时,我们会意识到通过缩小机器智能与人类智能之间的差距,我们经历了一次巨大的变革。


这种资源稀缺的情况可能会驱动某种程度的中心化,因为需要的资源巨大而有限,资本是其中最不稀缺的部分,人才、专有的应用观点和研究才是稀缺的。我认为,这会导致市场由少数几家公司主导。我们已经在历史上多次看到这种情况。看看汽车行业的爆发,有上百家汽车公司成立,但真正存活下来的却寥寥无几。这并不是新的现象。


我希望看到的不仅仅是谷歌、亚马逊和微软在竞争,还有像OpenAI、Anthropic、Poolside这样的公司,它们能够获得足够的“逃逸速度”,与这些大公司并肩,打造下一代的商业巨头。


Harry: 你刚刚提到了“不良行为者”,这让我联想到“游客”。我知道这听起来很糟糕,但我指的是那些没有长期打算,只是为了某个故事而进入这个领域的人。很多上市公司CEO和大公司CEO并不是“游客”或“不良行为者”,但他们必须讲述AI的故事,必须展示他们在AI上的投入和创新。我的问题是,关于市场团队的建设,你怎么看待我们今天看到的营收?我们是否已经超越了实验预算阶段,进入了真正的部署和承诺阶段?企业的情况是怎样的?


Eiso: 我认为这取决于具体的应用场景。有很多场景仍处于实验阶段,但也有一些场景已经远远超越了实验阶段。对于软件开发者的AI,我认为现在没有人再质疑未来的开发将会是一个由开发者主导且AI辅助的世界,并且AI辅助的程度会越来越高。


Harry: 你认为哪些应用场景的长期潜力最小,或者你最不理解?


Eiso: 我认为有些应用场景正在迅速商品化。语音识别就是其中之一。图像生成也是一个例子,我们已经看到这个领域在逐渐商品化。


Harry: 你之前提到人才是非常关键的部分,但我们还没有深入探讨过这个问题。我们已经讨论了模型、数据和算力,而在人才方面你采取了不同的策略。你们是一家欧洲公司,很多投资者都在问,为什么你决定把公司留在欧洲?


Eiso: 我们是一家美国公司,团队成员分布在旧金山到以色列之间。但在公司成立初期,我和联合创始人杰森曾计划在湾区创办公司,为此进行了相关调研。我们列出了一份名单,其中包括我们认识的,以及通过研究论文和GitHub发现的外部人员,这些人具有我们所需的专业技能,从分布式训练到GPU优化、数据处理和大语言模型的强化学习,涵盖了各个领域。这份名单最终包括大约3300人。


正如预料的那样,名单中大部分人都在湾区,甚至不仅限于美国范围,而是主要集中在湾区。然而,令我们意外的是,名单中还有相当一部分优秀人才分布在欧洲和以色列,遍及英国、瑞士、特拉维夫、阿姆斯特丹、巴黎等地。虽然没有一个地区具备像湾区那样的人才集中度,但英国是相对较大的集中地之一。我们意识到,与这些人进行沟通是值得的。


于是,我前往这些地区与他们交流,结果发现了一个有趣的现象:这里有很多非常优秀的人才,他们希望留在当地,不愿意搬到湾区去加入其他公司。然而,他们也很难找到拥有宏大愿景的年轻公司。因此,我们意识到这是在能力竞赛中建立优势的机会。我们需要在每一个关键要素上建立不对称的竞争优势,所以决定在欧洲和美国同时发展我们的团队。


回顾这一决定,我非常庆幸我们做出了这个选择。


Harry: 你们在伦敦有多少人?


Eiso: 在伦敦大约有15人。


Harry: 在巴黎有多少?


Eiso: 两个。


Harry: 也许我不该提巴黎了。巴黎现在被认为是欧洲的AI中心。


Eiso: 关键在于,人才从哪里来?即使在ChatGPT出现之前,AI领域的人才又是由谁培育的?


我们必须感谢的第一家公司是DeepMind。DeepMind在伦敦建立了一个令人惊叹的人才库。Meta也在伦敦和巴黎之间培养了非常出色的人才。但从数量和规模来看,谷歌 (包括DeepMind) 做出了更大的投资。此外,还有一个不常被公开讨论但非常出色的人才来源,那就是Yandex。Yandex在俄罗斯建立了一家了不起的公司,拥有世界上最有能力的研究人员和工程师,其中许多人已经离开俄罗斯,在整个欧洲形成了一种人才的“散居”。


Harry: 当我们谈论人才时,欧洲常常因为工作与生活的平衡问题而受到批评。你是如何看待这个问题,并且在团队中实施工作标准的?


Eiso: 在ChatGPT推出初期,Box公司的Eren Levi发了一条推文,提到了这个问题。他的意思是,如果你在AI快速发展的浪潮中努力工作并保持合理的工时,那么这种努力是有道理的,因为最初的几年正是奠定行业格局的关键时期。对此,我的看法是,这确实是在竞争格局逐渐形成的时候,决定谁有资格参与AGI (通用人工智能) 的竞赛。


我和我的联合创始人以及Margarita的观点一致,我们认为,十年后回顾现在,就像回顾移动互联网的兴起一样,我们会意识到这段时间是确立竞争格局的关键时刻。因此,你绝对不希望将来回首时发现自己没有全力以赴,因为AGI的竞赛是一场真正的竞争。大多数初创公司通常是在与自己竞争,但AGI的竞赛则不同,它确实是一场激烈的比拼。


我们的信念一直是,团队必须对这场竞赛充满激情。我们也非常坦诚,加入这场比赛意味着要做出一些牺牲,你不可能什么都得到。从一开始,我们就对团队完全公开这一点。在首次介绍电话中,我们会明确谈到:“你是否愿意加入这场竞赛?”


事实上,我在欧洲发现了很多愿意参与其中的人。虽然对欧洲的工作文化存在一些刻板印象,但实际上,那些真正想要加入竞赛,并将其视为毕生事业的人,他们具备一种与众不同的特质。这种人才遍布全球各地,只要你愿意努力去寻找,就能找到他们。


Harry: Chase Cohen提到一个有趣的统计数据,在Netscape成立后的两年里,互联网公司的企业价值中有1%是创造的,而其余99%是在随后的几年中累积的。这是否与“竞赛”的观点相悖?现在的情况有所不同吗?


Eiso: “历史不会重演,但会有相似之处。”这句话据说出自马克·吐温。我认为,我们可能面临的一个错误是过于依赖过去的经验,因为技术进步如今正处于指数级增长的轨道上。比如,1996年Netscape成立时 (如果我没记错年份) ,当时的资本和人才还远没有今天这样对未来十年的变化有清晰的认识。这需要一定的时间去实现。当然,我承认自己可能会有错。


另外一种解释是,1996年所需的建设与今天相比有着本质上的差异。站在对立面来看,或许未来几年将是推动全球向AGI迈进的关键时期,技术能力会迅速提升。而在随后的五到十年内,确实有望产生巨大的经济价值,这些价值的规模将远远超过我们当前的预期。我相信经济价值会继续沿着指数增长的轨迹不断上升。


不过,我不同意的观点是,今天建立的公司不会成为未来的行业巨头。我认为,这些公司有望成为未来的关键推动者,并在帮助我们实现AGI的过程中扮演重要角色。


Harry : 我担心的是,你将投入大量资金来达到技术的某个先进水平,然后这些技术会被他人利用来建立极具价值的公司。如果我们看看电池领域,特别是那些不为人知的公司,它们在电池技术上取得了惊人的突破,但最终被收购或因倒闭而出售其知识产权。这需要大量的资金来发现新的突破,而这些突破又被其他公司所利用。


Eiso: 以电池行业为例,我会想到比亚迪。比亚迪不仅是一家电池制造商,还是全球电动车销量最大的公司之一,这说明深度的垂直整合有很多值得探讨的地方。


再看看Poolside,我们正在构建AGI (通用人工智能) 的基础模型,专注于将AI的能力进一步融入软件开发,并打造一个真正具有可持续性的业务。我认同你所说的,价值不仅会体现在模型层面,更会延伸到最终用户。因此,我们的策略是全面推进,实现整个过程的闭环,以避免你所描述的潜在风险。但我依然认为,未来会有更多的价值在我们之上被创造,远超我们单靠自己所能实现的。


技术进步将带来巨大的社会影响,而作为这项技术的开发者,我们有责任做好技术的管理工作。我们需要认识到,我们了解的主要是技术、用户和客户,但在处理全球地缘政治等复杂问题时,必须保持谨慎。因此,我曾建议,西方国家应该尽可能吸引来自中国的人才,让他们来到我们的国家。因为在推动技术发展的四大关键因素中,人才是至关重要的,加速吸引优秀人才可能是最切实可行的建议。


Harry: 你认为未来10年AI的最大误解是什么?


Eiso: 认为进展会停滞。


Harry: 什么会导致进展停滞?


Eiso: 全球冲突导致芯片供应链中断。


Harry: 如果你能请任何人担任董事会成员,你会选择谁?


Eiso: 马克·扎克伯格。为什么?我认为我们应该给马克·扎克伯格很大的肯定,因为他在大多数人不认同的情况下,以坚定的信念建立了一家令人惊叹的公司。如果你看看他在过去十年里对AR和VR的投入,从收购Oculus到现在的成就,这在当时世界大多数人都希望他放弃的时候,需要有极大的信念去坚信未来会发生巨大的变化。要实现AGI需要对技术改变世界有极大的信念。他是少数做到这一点的人之一,而且与我目前董事会上的成员风格非常不同。


Harry: 关于AI的监管,最糟糕的情况会是什么?


Eiso: 监管措施可能会从根本上阻碍小公司的进步。现实情况是,在很多情况下,这会增加昂贵的官僚负担,伤害那些年轻的初创公司,而不会对已经筹集了巨额资本的公司产生太大影响。


Harry: 有哪些具体的监管措施应该取消?


Eiso: 世界正在寻找一种平衡,而我希望看到的平衡是,监管AI的最终用户应用方式,就像我们之前对任何技术的最终用户应用进行监管一样。数据库本身不会造成伤害,关键在于它的使用方式。所以我希望我们继续严格要求公司对其技术的最终用途和用户负责,而不是试图限制可以用于训练的计算能力。我们正在开发的是缩小人类能力和机器智能之间差距的工具,而不是在建造终结者。


Harry: 你怎么看DST的尤里·米尔纳 (Yuri Milner)


Eiso: 我非常喜欢尤里,在过去的一年中我有几次机会与他接触,但直到读了他的书我才真正了解他。大多数人不知道尤里有一本书或宣言,你可以在网上免费找到。你之前听到我提到从一座山顶眺望另一座山的比喻,这其实是我从尤里那里学到的。


他经常谈到人类故事的巨大重要性。我们在这个无限广阔的宇宙中的这个小小蓝色星球上拥有如此特别的东西。我认为他真正体现了我们不能让这团火焰熄灭的信念。尤里和埃隆都认为,成为一个太空文明是延续这种特别事物的方式之一。他的观点是,朝着AGI的进展帮助我们将人类的独特性传播到宇宙各地。有人只是说说而已,有人却真的相信这一点,尤里就是这样的人之一。同时,他也是一位非常出色的资本家。


Eiso: 尤里作为投资者,从外部看来,他能够理解全球各地发生的重大技术浪潮,是一个真正的全球投资者。他看到美国的情况,也会在印度、印度尼西亚和整个亚洲进行投资。我认为,很少有投资者能对未来十年技术发展的前景充满如此坚定的信念,并在全球范围内布局。


Harry: 倒数第二个问题。我们投资者撰写投资备忘录时,总有一个部分叫做“事前验尸”,就是提前预测公司失败的原因。你能为Poolside写一个“事前验尸”吗?最可能的原因是什么?


Eiso: 我们在一场竞赛中。如果我们放慢脚步,我们就输了。在任何竞赛中,都有无数的地方会让你跌倒。我们没有奢侈的机会在能力竞赛或市场推广竞赛上犯错,我们必须在这两方面都做到出色。如果我们在任何一个方面犯了错,我们可能会落后,而如果落后太多,就会被淘汰出局。


Harry: 最后一个问题,有哪些你应该被问到却从未被问过的问题?


我很惊讶人们通常不问“是什么激励你?”大家问的是关于业务、结果和未来的事情,很少有人问你的“为什么”。我认为这可能是最重要的问题。我们之前谈到过三家公司,我对他们的第一个问题就是“为什么”,而我确实问过其中一些人。


Harry: 为什么你想要追求你所追求的最终结果?所以这是关键。


Eiso: 为什么你做你所做的事情?我认为这能够反映一个人的很多信息。归根结底,在任何竞赛或有抱负的事业中,最终促成成功的是人,而不是账户里的资金,那些只是所需的资源和投入。因此,对我来说,“为什么”是一个非常重要的问题,应该去问别人。


Harry: 这让我想起了丰田的5个“为什么”。为什么你做你所做的事情?


Eiso: 我意识到,当我没有在处理世界上我关心的最难的问题时,我就不会感到平静。为什么?因为我的大脑永远不会停下来。我总是凌晨四点醒来,不断反复思考我关心的事情。当我过去做的事情并不是世界上最具挑战性或最重要的事情时,我就没有那种安宁的感觉,现在我可能从来没有这种感觉。我一直都很努力,但在Poolside,我的工作强度达到了前所未有的程度。虽然很紧张,压力也很大,但我感到了一种平静。


本文来自微信公众号: 爆米花独角兽 ,本文由爆米花独角兽根据视频采访内容独家翻译

随意打赏

提交建议
微信扫一扫,分享给好友吧。