黄仁勋对话 ChatGPT 之父:改变世界的 AI 是如何诞生的
GTC 主题演讲日后,黄仁勋接受了包括极客公园在内的媒体采访,并回顾了这十年来 AI 繁荣的几个篇章——深度学习、 计算机视觉 、生成式 AI。这也是英伟达与 OpenAI 相遇在这场浪潮之巅的故事。
他说:「2016 年,我把世界上第一台英伟达 DGX 超级计算机送到 OpenAI ,是因为我对团队有太多的信心。这是一个非凡的团队。Ilya 在那里,Greg 在那里,Sam 在那里,这是一支世界级的团队。」
GTC 上,老黄也通过一场和老朋友 OpenAI 联合创始人 Ilya Sutskever 的炉边谈话,让这十年 AI 领域大事件最重要的亲历者,回顾了深度学习、 ChatGPT 、GPT4、多模态的整个演化路径。
最关键地是,两位老朋友的交谈回顾了一个更重要的问题——那时那景,这群人是怎么找到一个又一个「事后看是正确的」路径的?
对谈的尾声,Ilya Sutskever 也分享了关于大语言模型的下一步,他看到的路径是什么样的?
以下为黄仁勋和 Ilya Sutskever 对话全文,由极客公园编译整理。
01
起点:AlexNet
神经网络的出现
黄仁勋: Ilya,难以置信,今天居然是 GPT-4 发布后的第二天。很高兴在这里见到你,一起聊聊。
我们认识很久了,真是人生的一段旅程。从我认识你以来,你做了很多开创性的工作,从多伦多大学就开始了。你与 Alex (Krizhevsky)和 Jeff Hinton 一起共同发明了 AlexNet,这带来了现代 AI 的大爆炸。
你的职业生涯也把你带到了美国湾区, OpenAI 的创立,GPT-1、2、3。当然了,还有让 AI 风靡全世界的 ChatGPT ,真是卓越的履历,让整个行业都对你的成就由衷的敬佩。
我先来问问关于深度学习的一些问题,你对深度学习的第一直觉是什么?为什么你知道它会发挥作用?你心中就一定认为深度学习会取得如此成就吗?
Ilya Sutskever: 首先,非常感谢你的盛赞。确实,深度学习的强大能力改变了世界。我对 AI 感兴趣的原因有很多,我的出发点在于对 AI 会产生巨大影响力的直觉理解。同时,我也对「究竟什么是意识」、「究竟什么是人类体验」这样的问题充满了好奇,我觉得 AI 的发展能帮我去理解这些。
接下来,在 2002 年 到 2003 年的那个时候,学习是一件只有人类能做的事情,但是计算机还不会学习任何东西,甚至在理论上是否可行都不太清楚。所以我想如果能在智能学习或者 机器学习 方面做出一些成果,将很有可能成为 AI 领域的最大进步。
所以从那时开始,我开始在这个领域做一些探索。一开始还没有那么乐观,但幸运的是,Jeff Hinton 是我所在大学的一名教授,我找到了他。他的工作方向就是神经网络,这就是我想要的。因为神经网络的特性就在于能够学习,可以自动编程并行计算机。
那个时候,并行计算机还很小,但是希望在于如果你弄明白学习和神经网络学习的工作原理,那你就可以从数据中去编程小的并行计算机,而它与大脑的工作原理是相似的。所以,就好像有了几个理由可以支撑我继续向前探索,尽管还不太清楚这些是如何起作用的,然而基于已有的东西,似乎表明它的前景是最光明的。
黄仁勋:你首次开始使用深度学习和神经网络的那个时候,网络的规模是多少?计算规模是多少?
Ilya Sutskever: 有意思的是,在当时没有人意识到规模的重要性,所以人们训练的神经网络只有 50 个或 100 个,几百个神经元已经是大的神经网络了,一百万的参数会被认为很庞大。我们一般在没有优化过的 CPU 代码上跑我们的模型,我们有一群人研发,但我们不懂 BLAS,我们用 Matlab,优化过的 Matlab。
我们做了一些实验,提出各种不同的问题,来获得有趣的观察。Jeff Hinton 当时对训练神经网络用于生成小的数字感到很兴奋。一方面是对分类任务,同时他对于如何生成那些数字也很感兴趣,所以生成模型的源头就从那里开始。但是问题在于你做的那些很酷的东西都很零散,什么才是能真正推动技术进步的牵引力?当时并不明确这就是对的问题。但事后看来,恰恰对了。
黄仁勋:AlexNet 是在 2012 年诞生的,在那之前你和 Alex 研究 AlexNet 有一段时间了。你具体是在哪个节点上想明白要构建面向 计算机视觉 的神经网络?想明白 Imagenet 才是那个合适的数据集,来参加计算机视觉的竞赛?
Ilya Sutskever: 那我先介绍一些背景。大概是在我发现「 监督学习 」才是我们前进的方向的两年前。这不仅是直觉,我来详细解释一下。如果你的神经网络非常深并且很大,那就可以用它去解决一项有难度的任务。所以关键词就是,「深」和「大」。
那个时候人们还没有去关注大的神经网络,人们可能正在研究神经网络的深度,但是大部分 机器学习 的领域根本没有去研究神经网络,他们正在研究各种贝叶斯的模型和内核方法。这些方法虽然有优雅的理论基础,但并不表示就是一个好的解决方案,无论你怎么配置它们。相比之下,大型的深度神经网络却能在面对问题求解时,给出一个好的答案。
为了找到一个好的解决方案,你需要一个合适的大数据集以及大量的计算来完成这项工作。我们也做了一些优化工作,但很明显,优化依旧是一个瓶颈。这时,在 Jeff Hinton 实验室的另一位研究生 James Martens 取得了突破,他提出了一种与我们做的不同的优化方法,他使用了一些二阶方法。但是关键在于,事实证明我们可以训练这些神经元,因为之前我们都不知道能否训练它们,所以如果证明了你能训练神经网络,只需要把它变大一些,然后去找一些数据,这样就能可以成功。
所以接下来的问题是去找什么样的数据?答案就是 ImageNet。在当时看来,ImageNet 是一个难度很高的数据集,但很明显,如果你要在此数据集上训练一个大的卷积神经网络,它一定会成功,只要你有足够的算力。
黄仁勋:恰在当时,你和我的路径相遇。你洞察到: GPU 对于训练神经网络模型是非常有帮助的,而我们当时开发了几个版本的 CUDA GPU,应该是 GTX 580。你怎么能发现 GPU 能起作用?那一天到底怎么开始的?
Ilya Sutskever: GPU 出现在我们多伦多的实验室这件事,应该感谢 Jeff,他说我们应该试试 GPU。我们开始尝试和试验它们。这个过程很有意思,但是我们也没有完全搞懂,它们真正的用途在哪里?你怎么样才能把它们发挥作用?
但是接下来我们就发现,随着 ImageNet 数据集的出现,卷积神经网络是非常适配 GPU 的模型,所以有可能把它变得非常快,因此就能做规模远超以前的训练。非常幸运的是,Alex Krizhevsky 真的很喜欢 GPU 编程。他能够去编程开发非常快的卷积核函数,然后用 ImageNet 数据集,去训练神经网络,并且最终得到了结果。
「 AI 的大爆炸」时刻——从左至右依次为 Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton,三位创建的 AlexNet 卷积神经网络在 2012 年 ImageNet 大赛上一举夺魁。
黄仁勋:这个结果震惊了世界,大幅打破了 计算机视觉 的纪录,很明显这里存在非连续性的突破。
Ilya Sutskever: 对,它并不是之前方法的延续,并不是像常规那样的打破纪录。关键点在于这个数据集其实很难的,而且它是超出一般的范围的。其他人是会用经典的方法取得一点进展,做出点东西。但这是不够的,当时这个比赛不是一个普通的比赛,明显很困难,很遥不可及,很明显,如果你做得很好,那将是惊人的 AI 大爆炸。
02
两个好点子,
让 OpenAI 走到了现在
黄仁勋:快进到现在,你来到了硅谷,你和一些朋友一起创办了 OpenAI ,你是首席科学家。关于 OpenAI 的工作,你最初的想法是什么?你们做过一些发明和既往工作,带来了 ChatGPT 时刻。所以,你们最初的灵感来源于什么?你们是如何走到现在的?
Ilya Sutskever: 显然当我们开始的时候,并不是 100%清楚如何推动。而且这个领域与现在非常不同。
当然我们现在习惯了这些惊人的神器、惊人的神经网络来做很棒的事情,每个人都很兴奋。但是回到 2016 年初,当我们开始创业时,整个事情看起来都很疯狂。研究人员要少得多,可能比现在少 100-1000 倍。
在那时我们只有 100 个人,他们中的大多数人在 Google 或者 DeepMind 工作。然后有人开始学习这些技能,但仍然非常稀缺。在 OpenAI 开始的时候,我们有两个伟大的初步想法。这些想法一直伴随着我们到今天。
第一个伟大想法,也是我很早的想法,是通过压缩进行「 无监督学习 」。今天,我们想当然地认为无监督学习易如反掌,你只需对所有事情进行预先训练,而且一切都完全按照你的预期进行。但在 2016 年,无监督学习是 机器学习 中一个尚未解决的问题,没有人有任何线索知道该怎么去做。Yann LeCun 到处演讲说无监督学习是个巨大的挑战,而我真的相信,好的数据压缩将产生无监督学习。
当然,压缩并不是通常所谈的事情,直到最近。突然之间,很多人了解这些 GPT 实际上压缩了 训练数据 ,你可能还记得 Ted Chiang 在《纽约时报》上的文章也提到这一点。但是从数学意义上讲,训练这些自回归生成模型可以压缩数据,并且直观上,你可以看到它们为什么起作用。
如果你将数据压缩得非常好,你一定能够提取其中存在的所有隐藏信息,所以这就是关键。这就是让我们兴奋的第一个想法,这导致了 OpenAI 把相当比例的工作量投入到了情绪神经元。这项工作在 机器学习 领域不太被很多人关注。但实际上,它很有影响力,特别是在我们的思路里。
这项工作的结果是,当你训练一个神经网络时(但它并不是 Transformer,而是在 Transformer 之前的模型,很多人记得,是一个小型循环神经网络叫 LSTM —— 长短期记忆网络 ),我们用相同的 LSTM 稍微调整一下来预测 Amazon 评论的下一个字符,我们发现:如果可以足够好地预测下一个字符,就会有一个神经元在 LSTM 内回应它的情绪。所以这真的很酷,因为它展示了 无监督学习 的一些效果,并验证了一个想法:足够好的字符预测或其他任何预测,具有发现数据中的秘密的特性,这就是我们在这些 GPT 模型中看到的。
黄仁勋:这个观察对我来说,直接打开了下面这个问题的新世界:我要从哪里获得 无监督学习 的数据?因为我确实有很多数据,如果我能预测下一个字符,我知道真实结果,我知道答案是什么,我可以用它们训练神经网络模型,所以这个观察和屏蔽(masking)以及其他技术、其他方法,广开思路,以帮助我看到哪里可以获取所有无监督学习的数据。
Ilya Sutskever: 我换一种说法陈述。我会说在 无监督学习 中,困难的部分不在于从哪里获取数据,尽管现在也有这个问题,但更多的是关于为什么要这样做?为什么要费心做?困难的部分是:意识到训练这些神经网络以预测下一个 token 是一个值得追求的目标。
黄仁勋:这样它会学习到一个可以理解的表征。
Ilya Sutskever: 这是正确的,但实际上它并不那么明显,所以人们没有这样做,但情感神经元是起作用的。在这里,Alec Radford 是真正推动了许多进步的人,这里的情感,是 GPT-1 的前身,它对我们的思维有很大的影响。
然后,Transformer 来了。我们立即想到:哦,天啊,就是它了。我们训练了 GPT-1。
黄仁勋:在这个过程中,你一直相信,扩大规模会改善这些模型的性能吗?更大的网络、更深的网络、更多的 训练数据 将使其扩展。 OpenAI 写了一篇非常重要的论文,讨论了 Scaling Law(模型能力随着模型体量的上升而增强),模型大小与数据集数量之间的关系。
当 Transformer 出现时,它给了我们合理的时间内训练非常大的模型的机会,但对于模型大小和数据之间的规律的直觉,相对于 GPT-1、2、3 的诞生,哪个先出现?你先看到 GPT-1 到 3 的发展路径吗?还是先有 Scaling Law 的直觉?
所有类型的任务上,更深更大的模型,性能更好。2020 OpenAI 提出了 Scaling Law,该定律已被用于指导大型模型的训练。
Ilya Sutskever: 直觉。我有一个很强烈的信念,更大意味着更好。在 OpenAI ,我们的一个目标是弄清楚使用 Scaling Law 的正确途径。OpenAI 一开始就对扩展规模抱有很多信念,问题是如何准确地使用它,因为我现在提到的是 GPT,但是还有另外一条非常重要的工作路线,我还没有提到。
第二个伟大的好主意,那就是 强化学习 。这显然也很重要。你用它做什么?
在 OpenAI 中完成的第一个真正的大型项目是我们解决了一个实时策略游戏。实时策略游戏就像是一项竞技运动。你需要聪明,你需要更快,你需要快速反应,有团队合作。你正在与另一个团队竞争,这是非常、非常复杂的。并且这个游戏有一个完整的竞争联赛,这个游戏叫做 Dota 2。所以我们训练了一个 强化学习 agent 来与自己对抗,目标是达到一定水平,以便可以与世界上最好的玩家竞争,这也是一个重大的项目。它是一个非常不同的工作方向——强化学习。
黄仁勋:是的,我记得你们宣布这项工作。 OpenAI 做了大量的工作有些看起来像是走了弯路,但事实上,正如你现在解释的那样,它们可能是弯路,看起来像是弯路,但它们真正导致了我们现在讨论的一些重要工作—— ChatGPT 。
Ilya Sutskever: 是的,我的意思是已经有了真正意义上的交汇:一方面,GPT 产出了技术基础设施;另一方面,从 Dota 的 强化学习 转变为基于人类反馈的强化学习(RLHF)。这种组合给了我们 ChatGPT 。
03
ChatGPT 的引擎系统
黄仁勋:有一个误解是:认为 ChatGPT 本身只是一个巨大的大型语言模型。但,事实上围绕着它有一个相当复杂的系统。你能简单解释一下吗?关于它的微调、 强化学习 以及各种周围的系统,才能让 ChatGPT 运作起来,让它提供知识等等。
Ilya Sutskever: 当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个词时,我们正在做的其实是——正在学习一个关于世界的模型。表面上看起来,我们只是在学习文本中的统计相关性,但实际上,是通过学习文本中的统计相关性,从而把这些知识很好地压缩。
神经网络所学习的是生成文本的过程中的一些表述,这个文本实际上是这个世界的一个映射,世界在这些文字上映射出来。因此,神经网络正在学习从越来越多的角度去看待这个世界,看待人类和社会,看人们的希望、梦想、动机、交互和所处情境。基于此,神经网络学习一个压缩的、抽象的、可用的表述。这就是从准确预测下一个词的任务中,正在学习的东西。更进一步,你对下一个词的预测越准确、还原度越高,在这个过程中你得到的世界的分辨率就越高,所以这就是预训练阶段的作用。
但是这并不能让神经网络表现出我们希望它能够表现出的行为。你看一个语言模型,它真正要做的是回答以下问题:如果我在互联网上有一些随机的文本,它以一些前缀、一些提示开始,它将补全什么内容呢?可能只是随机地用互联网上的一些文本来补全它。
这和我想拥有一个助手是不同的。一个真实的、有帮助的,遵循某些规则的助手是需要额外的训练的。这就是微调和来自于人类老师的 强化学习 以及其他形式的人工智能协助可以发挥作用的地方。不仅仅是来自人类老师的强化学习,也是来自人类和 AI 合作的强化学习。人类老师与 AI 一起合作去教导我们的 AI 模型,但不是教它新的知识,而是与它交流和它传达:我们希望它成为什么样,而这个过程,第二阶段,也是极其重要的。
第二阶段做得越好,这个神经网络就越有用,越可靠,所以第二阶段也是极其重要的。第一阶段学习一切,尽可能多地从世界的映射——文本中了解这个世界。
黄仁勋:你可以对它进行微调,你可以指示它执行特定任务。但你能不能指示它不要做一些事儿,方便你给它设置一些安全护栏、给它一些边界,去避免这一类型的行为?
Ilya Sutskever: 可以的。第二阶段的训练是我们向神经网络传达我们想要的任何东西,其中包括边界。我们的训练做得越好,我们传达的这个边界的保真度就越高。因此,通过不断的研究和创新,我们能够提高这种保真度,从而使它在遵循预期指令的方式上变得越来越可靠和精确。
04
GPT-4 的进步——
预测下一个词的准确性
黄仁勋: ChatGPT 在几个月前就出来了,它是人类历史上增长最快的应用。关于它的原理已经有了很多解释。这是为每个人创建的最易用的应用。它所执行的任务、做的事情超出人们的期望。任何人都可以使用它。没有使用说明,也无所谓使用错误的方法。你用就行了,你只需使用它。如果你的指令提示不明确,对话就继续、消除歧义,直到你的意图被 AI 应用所理解。
这带来的影响非常显著。昨天是 GPT-4 发布后的第一天。GPT-4 在许多领域的表现令人震惊,在 SAT,GRE,律师资格(Bar)考试,分数很高。一次,再一次,表现都很优异。很多项测试它都到达了人类的领先水平。太震撼了。所以,什么是 ChatGPT 和 GPT-4 之间的主要区别?什么导致 GPT-4 在这些领域的改进?
GPT4 在多项专业考试中的表现最佳
Ilya Sutskever: GPT-4 相比 ChatGPT ,在许多维度上做了相当大的改进。我们训练了 GPT-4,我记得是在六个多月以前,也许八个月前。我不记得确切时间了。
GPT 是第一个 ChatGPT 和 GPT- 4 之间的区别,这也许是最重要的区别。
在 GPT-4 的基础上构建,预测下一个单词具有更高的准确度,这是非常重要的。因为神经网络越能预测文本中的下一个词,它就越能理解文本。这种说法现在也许已经被很多人接受了。但它可能仍然不直观,或者说(人们)不知道为什么会这样。我想绕个小弯,举个例子类比一下,来说明为什么对下一个词的更准确预测会导致更多的理解,真正的理解。
让我们举个例子,假设你读了一本侦探小说,里面有复杂的故事情节、不同的人物、许多事件、神秘的线索,但是现在还不清楚。然后在书的最后一页,侦探收集了所有的线索,召集了所有的人,并说好吧,我将揭示谁犯了罪,那个人的名字是?——请预测那个词。
这里会有许多不同的词,但是通过越来越好地预测这些词,模型对文本的理解不断增加,GPT-4 预测下一个词的能力也变得更好。
黄仁勋:人们说,深度学习不会带来逻辑推理。但是为了预测下一个词,从所有可选的角色里面或从他们的意图和背景中,找出优势或弱点,并能够预测这个词,谁是凶手?这需要一定量的推理,相当多的推理。因此,它是如何学会推理的呢?
如果它学会了推理,我将要问的就是做了哪些测试?在所有的在 ChatGPT 和 GPT-4 之间的测试中,有一些测试是 ChatGPT 已经非常擅长的,有一些测试是 GPT-3 或 ChatGPT 不擅长的,而 GPT-4 则要好得多。还有一些测试是两者都不擅长的,而且其中一些似乎与推理有关。在微积分中,它无法将问题分解成合理的步骤并解决它。但是在某些领域,它似乎展示了推理技能。在预测下一个词的时候,它是否在学习推理?GPT-4 将进一步提高其推理能力,现在的限制在哪里?
Ilya Sutskever: 推理并不是一个很好定义的概念,但无论如何,我们可以尝试去定义它。这就是,当你能够进一步以某种方式思考一下,因为你的推理而得到一个更好的答案。
我想说,我们的神经网络也许有一些限制可以被解决,通过比方说,要求神经网络把它的想法脱口而出(think out loud)这样的任务。这已被证明对推理极为有效。
但我认为,基本的神经网络能走多远,也还有待观察,我认为我们还没有充分挖掘它的潜力。在某种意义上,推理肯定还没有达到那个水平,像神经网络具备的其它一些能力一样的水平。我们希望神经网络的推理能力要很高,甚至更高。我认为商业使用很有可能将提高神经网络的推理能力。
黄仁勋:对,当你要问 ChatGPT 问题、在它回答问题前,你跟它说:首先,告诉我,你知道些什么,然后再让它回答这个问题。通常人们回答一个问题前,如果告知他具备哪些基础知识,或者是回答问题前做的一些基本假设,这会让我更相信他的回答,这也在展示某种程度上的推理水平。所以在我看来,ChatGPT 内嵌了这种能力。
Ilya Sutskever: 某种程度上,理解现状的一种方式是,这些神经网络具备很多这类能力,只是它们还不太可靠。事实上,你可以说目前可靠性是让这些模型有用、或者说是真正有用的最大阻碍。有时会存在一些情况,这些神经网络会产生幻想,或者可能会犯意想不到的错误,而人不会犯这些错误。正是这种不可靠性,使得它们的用处大大降低。
但我想,或许通过更多的研究和当前的一些想法,或者一些远大的研究计划,我们一定能实现更高的可靠性,这样模型才会真的有用。并且能让我们能设定非常精确的护栏界限。这也会使得模型学会解释清楚,哪里是它不确定的地方或者它压根不知道的知识。当模型学会后,它不知道的问题不会回答,回答的答案也会非常可信。
所以我要说,这是当前模型的一些瓶颈。这不仅仅是模型是否具备特定的能力,准确地说,这是具备多少、在多大程度上具备的能力。
黄仁勋:提到事实性和真实性,还有幻想,我之前看过一个视频,它展示了 GPT-4 中从维基百科页面做检索的能力。GPT-4 真的包含检索能力吗?它是否能够从事实中检索信息以加强对你的响应?
Ilya Sutskever: 当前 GPT-4 发布时,并没有内置的检索功能,它只是个非常好地预测下一个词的工具。它还可以处理图像,一些高质量的图片通过数据和 强化学习 的变量进行微调,以特定方式表现出来。的确有人会要求 GPT-4 做一些查询,然后把查询结果代入到上下文中,而因为 GPT-4 的上下文持续时间相当长,所以结果不会让我感到惊讶。
总结来说,虽然 GPT-4 没有支持 信息检索 ,但它完全具备这个能力。它也将通过检索变得更好。
05
多模态的意义
黄仁勋:多模态的 GPT-4 具备从文本和图像中学习、并能对以文本和图像作为输入的请求做响应的能力。首先,多模态学习的基础,Transformer 使得我们可以从多个模态中学习,例如把文本和图像 token 化。在这个基础上,(你可以)帮助我们理解多模态是如何增强对世界的理解的吗?
我的理解是,当你在用多模态学习时,甚至仅仅使用文本提示词本身,就可以提升文本理解。从基础层来看,多模态为什么如此重要,重大突破是什么,以及由此产生的特征差异是什么?
Ilya Sutskever: 多模态有两个维度,或是说两个原因让它如此有趣。第一个原因有点谦虚。多模态是有用的,它对神经网络很有用,尤其是视觉,因为这个世界是非常视觉化的。人类是视觉动物,人类大脑皮层的三分之一都用于视觉,我相信由于没有视觉,神经网络的用处虽然相当大,但并没有达到它应有的那么大,所以这是一个非常简单的有用的论点。很显然,GPT-4 可以「看」得很好。
第二个原因是,除了从文本学习外,我们还可以从图像中学习这个世界,这也是很强的论点,尽管它像看上去没有那么明确。举个例子,人类一辈子会听到十亿个词。
黄仁勋:这非常夸张。
Ilya Sutskever: 这不是很多。真的,不是很多。因为十亿秒是 30 年,所以像我们一秒只能看到几个字,并且我们有一半的时间都在睡觉。所以几十亿个词是我们一生中得到的总数。那么有尽可能多的信息来源非常重要,并且我们绝对可以通过视觉学到很多。
同样的论点也适用于我们的神经网络。神经网络除了可以从相当多的词中学习,(如果有了「视觉」),从文本中的几十亿文字认识世界或许会变得更容易,甚至可以从数万亿的词语中学习。
举个例子,比如颜色,人需要看到颜色才能理解颜色,但是神经网络在「一生中」从没有「看」过一张照片,如果你问它们什么颜色更接近,它知道红色比蓝色更接近橙色,它也知道蓝色比黄色更接近紫色,这是怎么实现的?一个答案是这个世界的信息,甚至是视觉的信息会慢慢通过文本传播出去,但是它非常缓慢。但当你有很多文本时,你仍然可以学习到很多东西。
当然,当你加入视觉信息并从视觉中学习知识,你就会学到额外的知识。这些知识是无法通过文本获得的。但我不会说,它是一个二进制文件,有些东西无法从文本中学习到。我认为这更像是一种交换频率的问题。特别是当你想学习,你想像人一样从十亿个单词或一亿个单词中学习,那么,有其他形态的信息来源变得重要得多。
黄仁勋:是的,你可以从图像中学习。是否有一种感觉表明,如果我们也想了解世界的构造,比方说我的手臂连接着我的肩膀,再通过连接我的手肘就能移动这个世界,像这样的物理法则,如果我也想学习,我可以只看视频就能学习吗?
Ilya Sutskever: 是的。
黄仁勋:如果我想增强(效果)。比方说,「伟大(great)」的意思,有些场合下「伟大」是讽刺意味的,另一些场合下「伟大」可能是热忱意味的,还有很多很多这样的词,(它的意思)取决于人们如何表述。
所以音频对于模型学习也会有帮助吗?我们会很快让它派上用场吗?
Ilya Sutskever: 是的,我认为肯定是这样的。那么,关于音频,它很有用,它是另一个额外(形式)的信息来源,可能不如视频图像那么多。但是,音频无论是在识别方面和生成方面,都是有必要的。
黄仁勋:当你谈到前面所说的分数时,真正有趣的是你们发布出来的数据。哪些个测试 GPT -3 表现良好?哪些个测试 GPT-4 表现得更好?你认为多模态在这些测试中起了多少作用?
Ilya Sutskever: 坦白说,每当有测试,你可以看看图表。比如,一些数学竞赛,比如高中生的数学比赛 AMC12 中,有很多图表的题。GPT-3.5 在测试中表现得相当差。只有文字模态的 GPT-4,我想我不太记得了,但它可能有 2% 到 20% 的准确率。但当你添加视觉模态时,它会提升至 40% 的成功率,所以视觉真的做了很多事情。
视觉模态的加入是非常棒的。能够在视觉层面进行推理和在视觉上进行沟通,我们也将变得非常强大、非常棒。视觉从仅仅对几个事物的了解,发展到你可以了解整个世界,然后你可以把这个世界做视觉化推理、视觉化的沟通。未来,如果你问神经网络,嘿,回答我一下。神经网络不仅会用四个段落来回答,还会生成一个小图表,清楚告诉你。
06
AI 的未来
黄仁勋: 这真是不可思议。你之前还说过的一件事是,关于用 AI 生成测试来训练另一个 AI 的事。有一篇论文是写的这个主题,我不完全确定它是不是属实。但是它是说全世界大概有 4 万亿到 20 万亿这么多数量的语言 tokens 可以被用于训练模型,所以说可以用来训练的 token 会慢慢消耗殆尽。
首先,我不知道你是否有同样的感觉;第二, AI 是否会用自己生成的数据来训练自己?你也可以反驳这个循环,但我们(人类)无时无刻不在用生成的数据,比如通过自我反省的方式训练我们的大脑,并在脑海里思考某一个问题。我猜,神经科学家会说,保持充足睡眠可以帮助建设我们的神经元。
你如何看待 合成数据 生成领域?这是否会成为未来 AI 训练重要的一部分?AI 能否自己训练自己?
Ilya Sutskever: 我认为我不会低估现有的数据。我认为可能有比人们意识到的更多的数据。至于你的第二个问题,这种可能性仍有待观察。
黄仁勋:未来的某些时候,当我们不使用 AI 时,它也许会生成对抗性的内容来学习或想象着它需要解决的问题来不断提升自己。告诉我们,现在处于哪里,以及未来我们将会在哪里?不预测非常遥远的未来,而是可见的一两年。你认为语言模型领域会去向何处?哪些是令你最兴奋的地方?
Ilya Sutskever: 预测是困难的,尤其是对于太具体的事情。
我们有理由认为这个领域会持续进步,我们将继续看到 AI 系统在它的能力边界继续震惊人类。
目前的边界是由 AI 的可靠性决定的。如果它不能完全理解,它也会通过提问来弄清楚,它会告诉你不知道,但同时会说它需要更多的信息。如果这些取得进展,我认为会对 AI 的可用性带来最大的影响。因为现在,我们就面临着一个挑战。你想让一个神经网络去总结长的文档、获取摘要。挑战就是,能确定重要的细节没被忽略吗?
(现在,)它依旧是一个有用的总结。但是当你知道,所有的要点都被涵盖了,那就是另一回事了。一些要点总结得模棱两可还好,但如果一些重要到所有人都觉得重要的要点,也被神经网络总结了,那么我们就会承认神经网络总结内容是很可靠的。
对于内容护栏也一样,它是否清楚地遵循用户的意图(也会成为衡量可靠性的标准)。未来两年,我们会看到很多这样的技术。
黄仁勋:是的,这太棒了。这两个领域的进步将使这项技术变得值得信赖,并使人们能够应用在这么多的事情上。这本应该是最后一个问题,但我真的还想再问一个问题。从 ChatGPT 到 GPT-4,你是什么时候第一次开始使用它的?它表现出来什么样的技能连你都为之惊讶?
Ilya Sutskever: 它展示了许多很酷的东西,很酷也很令人惊讶,非常棒。我要提到两点。简短的回答是,它的可靠性水平令人惊讶。
在此之前的神经网络,如果你问它一个问题,它可能会以一种近乎愚蠢的方式误解。然而 GPT-4 不会让这种事发生。它解决数学问题的能力变得更强大,你真的可以认为它进行了推导(derivation),长篇且复杂的推导,并且还转换了单位等等。这真的很酷。就像许多人一样,它是通过一步步的证明来工作的,这真的很神奇。尽管不是所有的证明都那么自然,但起码有很大一部分是的。另一个例子在于,许多人注意到的写诗能力。它可以用同一个字母开头的单词写诗,每个单词都很清晰地遵循着指令。虽然仍不完美,但是已经非常好了。
在视觉方面,我真的很喜欢它如何解释笑话的,它可以解释网络梗。你给他看一个梗并询问它这个为什么好笑,它会告诉你原因并且它说的还是对的。我认为,在视觉部分,它就像真的可以看到那些图。当你用一些复杂的图像或图表来追问它问题,并得到一个解释时,这真的太棒了。
退一步讲,我已经从事这项工作很长时间了,实际上几乎整整 20 年了。最让我感到惊讶的是——它是真的有效。它似乎一直以来(对人们来说)都是个小事儿,但它现在不再渺小,变得更重要、更强烈。它还是那个神经网络,只是变得更大,在更大的数据集上,以不同的方式训练,但训练的基础算法都是一样的,这是最令我惊讶的!每当我后退一步,我就会想,这些想法、这些概念性想法怎么可能呢?
大脑有神经元,所以也许人工神经元也一样好,所以也许我们只需要用一些学习算法以某种方式来训练这些神经元,来将它们的参数调节到如此难以置信地正确,这本身将是最大的惊喜。
黄仁勋:在我们相识的十年里,关于训练过的模型和数据量,从你从事的 AlexNet 训练到现在已经扩大到 100 万倍。在计算机科学界,没有人会相信在这十年间,计算量会扩大到 100 万倍,并且你的整个职业生涯都致力于此。你也是这两个开创性的成就——早年间 AlexNet 和现在从 OpenAI 诞生 GPT,这些成就真的了不起,很高兴能再次与你进行思想上的碰撞,我的朋友 Ilya。这是一个相当美妙的时刻,今天的对话。您将问题抽丝剥茧,逐一解释,这是最好的 PHD 之一。除了 PHD,还有领域最前沿的大语言模型的描述,我真的很感激。很高兴见到你。祝贺你!
Ilya Sutskever: 谢谢。