让聊天 AI 一边聊天一边学习？Facebook 和斯坦福合作实现了

雷锋网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网 AI 科技评论按： 现在的聊天 AI 除了比较出众的那几个——如微软「小冰」，普遍无法给人类带来较好的对话体验，其「答非所问」的回复往往让人啼笑皆非。近日，Facebook 人工智能研究院和斯坦福大学的研究员们共同开发了一款能通过从对话中提取训练数据进行自我提高的聊天 AI，通过实验测试，相比于一般聊天 AI ，其对话准确率提高了 31%。科技媒体记者 Kyle Wiggers 在 venturebeat 网站上对这项成果进行了报道，雷锋网 (公众号：雷锋网) AI 科技评论编译如下。

聊天 AI 中很少有不错的健谈家。除了拥有 4 千万用户和人均 23 次对话的微软「小冰」以及每天服务近 350 万顾客的智能销售客服阿里巴巴「店小蜜」，对于其他大多数聊天 AI，人类的关注时长一般不会超过 15 分钟。但是这并不能影响人类对 AI 的使用——实际上，据 Gartner 预计，到 2020 年，这些聊天 AI 将承担 85% 的客服交互工作。

幸运的是，AI 研究领域的不断进展，为有朝一日实现高级得多的聊天 AI 带来了很大希望。这周在预印本网站 Arxiv.org 上发表的一篇论文（《Learning from Dialogue after Deployment: Feed Yourself, Chatbot!》）中，来自 Facebook 人工智能研究院和斯坦福大学的科学家们描绘了这么一个聊天 AI——它能够通过从对话中提取训练数据进行自我提高。

论文作者解释道：「当对话看上去正在顺利进行时，用户的回复就会变成聊天 AI 模拟的新训练样本。（并且）当智能体认为自己出现了错误时，它会寻求反馈，并学着去预测反馈，这会进一步提高聊天 AI 的对话能力... 这些新的样本可以提升智能体的对话水平。而且这个过程只需要使用用户的自然回复，不要求这些回复有任何的特殊结构，也不需要同时还伴随着数值化的反馈，更不需要额外的人为干预。」

研究人员们假设这种 AI 系统在不进行太多人类监督的情况下，依旧能够持续地调整。那唯一的问题是什么？一个在自身的对话上进行训练的聊天 AI 存在强化错误的风险，从而导致产生「荒谬」的对话。

让聊天 AI 一边聊天一边学习？Facebook 和斯坦福合作实现了

研究人员们提出的聊天 AI 与人类之间的典型对话

图片来源：Chatbot

在研究人员们的示例中，这个解决方案原来是「满意度」——也就是说，AI 的聊天对象对它的回复的满意度。他们通过让临时雇佣人员与 AI 智能体进行闲聊，然后在 1~5 的分值区间中对智能体的每次回复的质量进行打分，来收集「满意度」数据集，其中智能体的每次回复，都会被用来「教」系统去预测：人类对于它们的说话方式是「满意的」还是「不满意的」。（为了增加「一个更干净的训练集」的类别之间的距离，分数为 2 的对话上下文会被舍弃掉。）

在聊天 AI 与人类聊天的过程中，前者会同时在两项任务中进行训练：对话任务（它接下来要说什么）以及反馈任务（它的回复的一致性）。对于每一轮对话，它都会考虑之前的对话（用以生成接下来的回复），以及大量分值在 0 到 1 范围内的满意度分数。如果满意度达到一个特定的门槛，它就会利用之前的对话上下文以及人类的回复来提取训练集；但是如果分数太低，聊天 AI 就会提出一个问题来询问人类的反馈，进而使用这一回复来为反馈任务创建一个新的样本。

例如，假设聊天 AI 对问题「法国这个时候的天气怎么样？」回复的是「它很美味」等不相干的回答，一般来说，聊天对象（人类）可能会接话：「你到底在说什么？」，根据他们的语气，这个聊天 AI 会推断出他们对它的回复不满意，进而正如它们事先被设计好的那样，去礼貌地提示聊天对象来纠正它（「哎呀！我搞糊涂了。我应该说什么呢？」）。一旦它们得到正确的答案（「也许你应该告诉我法国现在很冷。」），它就会从中提取出训练样本，以防止在未来犯同样的错误。

在他们的研究课题中，这些科学家为创建在 Transformer（在语言翻译任务中表现优于最先进模型的神经架构， https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html ）上的聊天 AI 喂养了 131,438 个「人类-人类」的对话样本，这些样本源自于 PersonaChat——一个旨在「与其他人交流... 并且尝试了解彼此」的由职工人员之间的短对话组成的对外开放的数据集。在测试中，他们发现当给定学习曲线处于最陡峭部分的小训练集时，聊天 AI 的准确率相比基线提高了 31%，同时表现最好的模型实现了 46.3% 的准确率，并在对话任务和反馈任务上，分别实现了 68.4% 的准确率。

至于聊天 AI 预测用户满意度的能力，即便在只有 1000 个训练样本的情况下，它也「明显优于」之前的方法。

研究人员们写道：「我们展示了，聊天 AI 可以通过模仿人类满意时的回复，或者通过在他们不满意时询问其反馈，并增加辅助性任务预测反馈，来提高它们的对话能力。并且我们还证明了，对用户满意度进行分类是自学过程中非常重要的学习任务，这样的自学过程，表现会明显优于一个基于模型不确定性的方法。」

他们表示，论文中所涉及的数据集、模型和训练代码将会通过 Facebook 的 ParlAI 平台对外开放。如果运气好的话，它们或许能够帮助实现真正值得与之交谈的下一代聊天 AI。

via：