谷歌研究员事件，感知，是当前AI行业的错误讨论

钛媒体 • 2年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

谷歌研究员事件，感知，是当前AI行业的错误讨论

学术头条

· 刚刚

微信扫码

AI，值得信任吗？

谷歌研究员事件，感知，是当前AI行业的错误讨论

图片来源@视觉中国

文｜学术头条

近日，关于谷歌工程师 Blake Lemoine 的文章、采访和其他类型的媒体报道已经铺天盖地、数不胜数。因为 Lemoine 对外宣称，人工智能（AI）大语言模型 LaMDA 在与用户对话的过程中具有了“感知能力”，甚至“像一个七八岁的孩子”。

在阅读了关于这一话题的十几种不同的观点后，我不得不说，媒体对当前 AI 技术的炒作已经（有点）失望了。很多人都在讨论为什么深度神经网络不是“有感知的”或“有意识的”。与几年前相比，这是一个进步，因为当时新闻媒体还在制造耸人听闻的故事，称 AI 系统发明了自己的语言，接管了人类的所有工作，并正在加速向通用人工智能（AGI）发展。

但是，人们正在讨论“感知”和“意识”的这一事实，也再次强调了一个重要的观点：尽管如今的大语言模型变得越来越有说服力，但依然会被科学家们在不同场合指出这样或那样的根本缺陷。自 20 世纪 60 年代 ELIZA 聊天机器人出现以来，“AI 愚弄人类”（AI fooling humans）的话题就一直在被讨论，但今天的大语言模型确实是在另一个层面上。如果你不知道语言模型是如何工作的，Lemoine 与 LaMDA 的对话看起来是很离奇的——即使这些对话是被经过精心挑选和编辑过的。

但是，“感知”和“意识”并不是有关大语言模型和当前 AI 技术的最好讨论，更重要的讨论应该是人类相容性（compatibility）和信任（trust），特别是当这些技术正越来越多地集成到人类日常应用程序中时。

大语言模型，不会“人类语言”

在过去一周，神经网络和大语言模型的工作原理已经被讨论很多遍了。在这篇文章中，我将从人类语言开始，对当前这种情况给出一个更宏观（zoomed-out）的看法。

对于人类来说，语言是传达我们大脑中发生的复杂、多维活动的一种手段。例如，当两个兄弟在交谈时，其中一个说“妈妈”，这个词与大脑不同部位的许多活动有关，包括对妈妈的声音、脸、感觉的记忆，以及从遥远的过去到最近的不同经历。但事实上，他们大脑中的表现方式可能存在巨大差异，这取决于他们各自的经历。然而，“妈妈”这个词提供了一种简洁的、有代表性的近似值，可以帮助他们在同一个概念上达成一致。

当你在与陌生人的对话中使用“妈妈”这个词时，经历和记忆之间的差异就会变得更大。但是，你们还是基于头脑中共有的概念达成了共识。

把语言想象成一种有助于把大脑中的海量信息传递给另一个人的算法。从环境中的物理互动到与他人的社会互动，语言的进化与我们在世界上的经历息息相关。

语言建立在我们在世界上的共同经历之上。孩子们甚至在说出第一个单词之前就知道重力、维度、物体的物理一致性，以及痛苦、悲伤、恐惧、家庭和友谊等人类和社会中的概念。没有这些经历，语言就没有意义。这就是为什么语言通常会忽略对话者共享的常识和信息。另一方面，分享经验和记忆的程度将决定你与另一个人交流的深度。

相比之下，大语言模型没有物理和社会经验。它们只是接受了数十亿个单词的训练，并学会通过预测下一个单词序列来回应提示。这种方法在过去几年中取得了巨大的成果，特别是在引入了 transformer 架构之后。

那么，transformer 是如何做出令人信服的预测的？它们首先会将文本转换为“token”和“嵌入”（embedding），即多维空间中单词的数学表示。然后，对嵌入进行处理以添加其他维度，比如文本序列中单词之间的关系以及它们在句子和段落中的作用。通过足够多的示例，这些嵌入可以创建单词在序列中应该如何出现的良好近似。transformer 架构之所以特别受欢迎，是因为它是可扩展的：它的准确性随着它变得更大、接收更多数据而提高，而且它们大多可以通过无监督学习进行训练。

但根本的区别仍然存在。神经网络通过将语言转化为嵌入来处理语言。而对人类来说，语言是思想、感觉、记忆、物理体验和许多其他我们尚未发现的关于大脑的东西的嵌入。

因此，尽管 transformer、大语言模型、深度神经网络等取得了巨大的进步，但依然离人类语言还很远。

AI，可以被信任吗？

当前，业内的很多讨论都是关于我们是否应该将感知、意识和人格等属性赋予 AI 系统。这些讨论的问题在于，它们关注的概念定义模糊，对不同的人有不同的含义。

例如，功能主义者可能会认为神经网络和大语言模型是有意识的，因为它们或多或少表现出与我们期望从人类身上看到的同类行为，尽管它们建立在不同的基础上。但其他人可能并不会认同，他们认为有机物才是意识存在的必要条件，而神经网络永远不会有意识。

然而，一个更实际的问题是，当前的神经网络与人类思维的“相容性”有多高，在关键应用场景上能否被人类信任？这是一个重要的议题，因为大语言模型大多会被公司拿去商用。

例如，只要经过足够多的训练，黑猩猩就可能学会开车。但在有行人正将穿过的道路上，你会安心让它开车吗？你不会，因为你知道，不管黑猩猩多么聪明，它们的思维方式和人类也不一样，无法胜任涉及人身安全的任务。

同样，鹦鹉也有能力学会一些短语，但你会让它做你的客户服务代理吗？可能也不会。

即使涉及到人类，认知障碍也会使一些人群失去从事需要人际交往能力或涉及人类安全的工作和任务的资格。在很多情况下，这些人能够流利地读、写、说，并在长时间的对话中保持言行一致和合乎逻辑。我们不会质疑他们的感知能力、意识或人格。但是我们知道，由于他们患有疾病，他们的某些事情上作出的决定可能会不一致和不可预测。

重要的是，你是否可以相信他们会像普通人一样思考和作出决定。在很多情况下，我们信任那些身兼重任的人们，因为他们的感官系统、常识知识、感觉、目标和奖励与我们的基本一致，即使他们不会说我们的语言。

那么，回到近期事件上，我们对 LaMDA 又了解多少呢？首先，它感知世界的方式与我们不同。它的语言“知识”不建立在与我们相同的经验之上。它的常识性知识建立在一个不稳定的基础上，因为没有人能保证大量的文本会涵盖我们在语言中忽略的所有东西。

考虑到这种不相容性，无论 LaMDA 和其他大语言模型在生成文本输出方面有多好，你还能相信它们到什么程度呢？一个友好、有趣的聊天机器人程序，只要不把对话引向一些敏感话题，就可能不是一个坏主意。搜索引擎也是大语言模型的一个很好的应用领域（谷歌近年来一直在搜索中使用 BERT）。但是，你能把开放式客户服务聊天机器人或银行顾问等敏感任务交给它们吗？即使它们已经接受过大量相关对话记录的培训或微调。

在我看来，我们需要特定于应用程序的基准（application-specific benchmark）来测试大语言模型的一致性（consistency），以及它们在不同领域与人类常识的相容性。当涉及到真正的应用程序时，应该始终有明确定义的边界，来确定在何处终止大语言模型的对话，并交给人类操作员。