OpenAI 推出新工具,尝试解释语言模型的行为 | 速途网
人们常说,像 OpenAI 的 ChatGPT 这样的大型语言模型(LLM)是一个黑盒子,这当然有一定的道理。即使对于数据科学家来说,也很难知道为什么模型总是以某种方式回应,比如凭空捏造事实。
为了揭开 LLM 的层次,OpenAI 正在开发一种工具,可以自动识别 LLM 的哪些部分负责其哪些行为。开发这个工具的工程师强调,它还处于早期阶段,但是从今天早上开始,它的代码就可以在 GitHub 上以开源的形式运行。
“我们正在试图(开发方法)预测 AI 系统会有什么问题,”OpenAI 的可解释性团队经理 William Saunders 在电话采访中表示。“我们希望真正能够知道我们可以信任模型所做的事情和它产生的答案。”
为此,OpenAI 的工具使用了一个语言模型(讽刺地)来找出其他结构上更简单的 LLM 的组件的功能——特别是 OpenAI 自己的 GPT-2。
如何做到这一点?首先,为了背景知识,简单介绍一下 LLM。它们和大脑一样,由“神经元”组成,这些神经元观察文本中的某些特定模式,从而影响模型“下一步”要“说”的内容。例如,给定一个关于超级英雄的提示(例如,“哪些超级英雄拥有最有用的超能力?”),一个“漫威超级英雄神经元”可能会提高模型提及漫威电影中特定超级英雄的概率。
OpenAI 的工具利用这种设置将模型分解为各个部分。首先,该工具将文本序列通过被评估的模型运行,并等待某个特定神经元“激活”频繁的情况。接下来,它将这些高度活跃的神经元“展示”给 GPT-4,OpenAI 的最新文本生成 AI 模型,并让 GPT-4 生成一个解释。为了确定解释的准确性,该工具向 GPT-4 提供文本序列,并让它预测或模拟神经元的行为。然后将模拟神经元的行为与实际神经元的行为进行比较。
OpenAI 可扩展对齐团队负责人 Jeff Wu 说:“使用这种方法,我们基本上可以为每个神经元提供一些初步的自然语言解释,说明它在做什么,并且还有一个分数,表示这种解释与它实际做的事情有多匹配。我们使用 GPT-4 作为过程的一部分,来生成关于神经元在寻找什么的解释,并评估这些解释与它实际做的事情有多匹配。”
研究人员能够为 GPT-2 中的所有 307,200 个神经元生成解释,并将它们编译成一个数据集,与工具代码一起发布。
研究人员说,这样的工具有朝一日可以用来提高 LLM 的性能,例如减少偏见或毒性。但他们承认,在真正有用之前,它还有很长的路要走。该工具对这些神经元中的大约 1,000 个有信心,只占总数的一小部分。
一些人可能会争辩说,这个工具本质上是 GPT-4 的广告,因为它需要 GPT-4 才能工作。其他 LLM 可解释性工具对商业 API 的依赖性较低,例如 DeepMind 的 Tracr,一个将程序转换为神经网络模型的编译器。
Jeff Wu 表示,情况并非如此——该工具使用 GPT-4 只是“偶然”的——相反,它显示了 GPT-4 在这方面的弱点。他还说,它不是以商业应用为目的而创建的,并且理论上可以适应除 GPT-4 之外的 LLM。
“大多数的解释得分相当低,或者没有解释实际神经元的行为的很多方面,”Jeff Wu 表示。“很多神经元,例如,以一种很难说清楚发生了什么的方式活跃——它们对五六种不同的事物都有反应,但没有可辨别的模式。有时候有可辨别的模式,但 GPT-4 无法找到它。”
这还不包括更复杂、更新和更大的模型,或者能够浏览网页获取信息的模型。但在这第二点上,Jeff Wu 认为网页浏览不会太改变工具的基本机制。他说,它可以简单地进行调整,以弄清楚神经元为什么决定进行某些搜索引擎查询或访问特定网站。
“我们希望这将开辟一条有前途的途径,以自动化的方式解决可解释性问题,其他人可以在此基础上建立和贡献,”Jeff Wu 表示。“我们希望我们真正能够对这些模型的行为有好的解释——不仅是神经元对什么有反应,而且是它们计算了什么样的电路,以及某些神经元如何影响其他神经元。”