能看图回答问题的AI离我们还有多远？Facebook向视觉对话进发

雷锋网 • 7年前扫码分享

雷锋网 AI 科技评论按：Facebook AI 研究院（FAIR）日前撰写了一篇长文章，介绍了自己在基于图像的自然语言对话系统方面的研究方向以及现有的研究成果。

图像理解和自然语言对话系统都是当前的热门研究领域，两者结合的领域更是又迷人、又让人头疼。下面我们来一起看看Facebook AI 研究院对这一问题有何见解、他们又做出了哪些成果。雷锋网 (公众号：雷锋网) AI 科技评论编译此文如下。

人们对视觉对话（Visual Dialog）的研究抱有一个远大的目标，就是教会机器用自然语言与人类讨论视觉内容。这个正在快速增长的研究领域集合了计算机视觉、自然语言处理以及对话系统研究三个方向的成果。

总的来说，对话系统的功能可以在一个范围内变化。这个范围一个极端是任务驱动的对话机器人，人们可以和它对话来完成一些具体的任务，比如订一张机票；另一个极端是闲聊机器人，你们可以聊任何话题，但是聊天的时候并不为了达成什么目的。视觉对话大概在这两个极端中间的一个位置上，这确实是一种不限定形式的聊天，但是对话内容需要限定在给定图像的内容范围之内。

能看图回答问题的AI离我们还有多远？Facebook向视觉对话进发

未来的视觉对话应用：一个能利用视觉能力和自然语言界面帮助人类的智能助手

虽然目前的视觉对话系统还处在很早期的阶段，但这类技术未来有很多的应用潜力。比如，能回答一系列问题的智能助手就可以帮助视觉障碍人群理解网上照片中的内容，或者看他现拍的照片帮他了解他所处的周围环境；还可以帮助医疗人员更好地解读医学成像照片。在AR/VR应用中也能派得上用场，用户跟一个虚拟的同伴身处同一个视觉环境中，然后可以用自然语言跟他聊环境中的东西。

能看图回答问题的AI离我们还有多远？Facebook向视觉对话进发

未来的视觉对话应用：基于同一视觉环境的虚拟伙伴

要造出类似这样的系统，目前还有不少基础研究方面的困难。Facebook的研究人员们近期就沿着两个研究方向做出了自己的努力：1，对视觉内容做显式的推理；2，模仿人类的视觉对话。

视觉内容的显式推理

连接到视觉数据的一个核心语言界面就是问一个自然语言的问题，比如：“图中有什么动物？”或者“有多少人坐在长椅上？”每个问题中需要解决的都是不同的任务，然而目前具有顶尖表现的系统里多数都还运用的是整体性的方法，用同一个计算图或者计算网络给出所有问题的答案。然而，这些模型只有有限的解释能力，而且对于更复杂一些的推理任务就很容变得无能为力，比如：“有多少东西和球的大小一样？”如下图

能看图回答问题的AI离我们还有多远？Facebook向视觉对话进发

用模块化的结构表征问题就给符合性的、可解释的推理带来了可能

为了解决这样的问题，UC伯克利的研究员们在一篇CVPR2016的论文中提出了“神经模块网络”，它吧计算过程拆分成了几个显式的模块。在上面的例子中，一个模块“寻找”或者说定位了这个球，然后另一个模块“重定位”或者说找到相同大小的物体，最后一个模型就可以数出来“有多少”。这个过程中重要的是，对于不同的照片或者问题，模型可以反复使用，比如“寻找球”的这个模块对于另一张图像来说就可以回答“图中的球体比立方体多吗”这个问题。就像和上面的图中一样，这样让人们可以通过“注意力地图”的方式检验中间的可解释的输出，可以看到模型在关注图中的哪些区域。

最初的这项工作基于的是一个不可微的自然语言分析器，后来2篇ICCV2017的论文就展现出了如何端到端地训练一个类似这样的系统。如果想要解答CVPR2017上Facebook AI研究院和斯坦福大学共同发布的CLEVR数据集中困难得多的组合问题，作者们认为这样的系统应当至关重要。

能看图回答问题的AI离我们还有多远？Facebook向视觉对话进发

论文「Learning to Reason: End-to-End Module Networks for Visual Question Answering」（学习推理：用于视觉问题回答的端到端模块网络）首先用一个带有编码器和解码器的循环神经网络（RNN）根据问题建立一个策略或者一个程序，然后它就会构建出一个模块化的网络，用这个网络对图像进行操作、回答问题。

不过，这两篇论文提出了不同的架构。第一篇由Facebook AI研究院和斯坦福大学合作完成的论文「Inferring and ExecutingPrograms for Visual Reasoning」（用于视觉推理的推断和处理程序）中，不同的模块中有不同的参数，但网络结构是一样的。第二篇由UC伯克利大学、波士顿大学和Facebook AI研究院协作完成的「Learning to Reason: End-to-End Module Networks for Visual Question Answering」中，依靠不同的模块完成不同的计算任务，模块之间可以共享问题表述的嵌入的参数。

虽然两篇论文中方法的架构不同，但两项研究中都发现有必要借助标准答案对程序的预测结果进行监督，以便得到更好的结果，不过一小批训练样本也就足够了。“Inferring and Executing Programs”论文中就表现出强化学习的使用可以让网络学到最好的端到端程序，这比直接学习标准答案的程序带来了显著的提升，而且可以对新问题和新答案做出细微调整。

近期新提出的RelationNet和FiLM两种网络架构也不需要在训练中用到任何标准答案程序就可以达到与整体式网络相当或更好的表现；这也意味着它们失去了显式的、可解释的推理结构。在“Inferring and Executing Programs”论文中除了基于CLEVR综合生成的问题之外也收集了真实人类提出的问题。不过，所有提到的这些研究都不具有好的泛化性。与此相似的是，如果在带有真实图像和问题的VQA数据集上测试，“Learning to Reason”论文的程序预测只带来的非常有限的表现提升，很可能是因为VQA数据集的问题需要的推理复杂度比CLEVR数据集低得多。

总的来说，Facebook的研究人员们对继续探索新的点子、构建真正具有复合性解释性、能够处理真实世界情境中的新设置和新程序带来的麻烦的模型还抱着饱满的热情。

模仿人类的视觉对话

这篇介绍文章由三位Facebook AI研究院的研究员Dhruv Batra、Devi Parikh、Marcus Rohrbach三人共同撰写，前两者同时也是佐治亚理工大学的助理教授。两人以及他们在佐治亚理工大学和卡耐基梅隆大学的学生们共同研究着针对图像的自然语言对话问题。他们开发了一个新的双人对话数据收集程序，从而构建了一个大规模的视觉对话数据集VisDial，其中包含了十二万张图像，每张图像带有10对问答句子，一共一百二十万个对话问答对。

能看图回答问题的AI离我们还有多远？Facebook向视觉对话进发

视觉对话智能体的示意图。用户上传一张图像，智能体就会首先开口给图像配上一句说明比如“一栋大楼，它中间有一个塔楼”，然后它还可以回答用户的一系列问题。

由于这个研究处于多个领域的交叉口上，它也就带动着不同领域的研究人员们携起手来解决共同的问题。为了给这个研究前线带来更大的贡献，他们也把VisDial数据集和相关代码开放出来，便于其它的对话系统研究者们为自己的问题创建定制化的数据集。

能看图回答问题的AI离我们还有多远？Facebook向视觉对话进发

对于对话系统，一个可能有点反直觉的研究角度是，把对话看作一个固定的监督学习问题，而不是一个交互性的智能体学习问题。根本上来说，监督学习的每一轮 t 中，对话模型都被人为地“插入”到两个人类的对话中，然后要求它回答一个问题。但机器的回答又会被抛弃，因为在下一轮 t+1 中，人们会给模型输入“标准答案”的人和人之间的对话，这其中包含了人类的应答而不包含机器的应答。这样一来，人类从来都不会把引导聊天走向的机会交给机器，因为这样就会让对话内容超出数据集之外，变得无法评估。

为了改善这个问题，佐治亚理工、卡内基梅隆和Facebook AI研究院共同在论文「Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning」（用深度强化学习学习合作性的视觉对话智能体）中提出了首个目标驱动的训练方式，用来训练视觉问题回答以及视觉对话智能体。他们提出了一个两个之间智能体合作完成的“猜图片”小游戏GuessWhich，其中一个“提问者”Q-BOT和一个“回答者”A-BOT要用自然语言对话交流。在游戏开始前会先给A-BOT指定一张图像，Q-BOT看不到图像；然后两个BOT都会收到一条关于这张图像的自然语言的描述。在游戏接下来的每一轮中，Q-BOT都要生成一个问题，A-BOT要回答它，然后两个BOT的状态都得到更新。在10论问答结束后，Q-BOT就要开始猜刚才的图像是一组图像中的哪一张。研究人员们发现，这些强化学习的方式训练得到的智能体要比传统监督学习训练的智能体强得多。最有意思的是，虽然有监督训练的Q-BOT会模仿人类如何问问题，强化学习训练的Q-BOT会变化策略，问一些A-BOT更善于回答的问题，最终在对话中包含了更多的信息量，组成了更好的团队。

目标驱动的学习有一种替代方案，就是选用一个对抗性损失或者感知损失，用来区分真实人类的和智能体生成的回答。在马上要到来的NIPS 2017中就收录了一篇介绍这个点子的论文，「Best of BothWorlds: Transferring Knowledge from Discriminative Learning to a Generative Visual DialogModel」（双料冠军：从对抗性学习转移知识到生成式视觉对话模型），来自Facebook AI研究院和佐治亚理工大学。还有一篇相关的论文来自普朗克信息学研究所、UC伯克利、Facebook AI研究院的共同合作，「Speaking the Same Language: Matching Machine to HumanCaptions by Adversarial Training」（讲一样的话：通过对抗性训练把机器匹配到人类描述上），这篇论文中表明，相比给定一张图像以后一次只让模型生成一条描述，一次生成多条描述可以让模型生成更加多变、更像人类的图像描述。

开放的多学科协作一直必不可少

作为人类，大脑相关功能中很大的一部分是通过视觉处理和自然语言处理与别人进行沟通交流。构建能够把视觉和语言连接起来的AI不仅令人激动，而且也非常具有挑战性。在这篇文章中，Facebook的研究人员们就介绍了这一空间中的两个研究方向：显式的视觉推理和模仿人类的视觉对话。虽然大大小小的研究进展不断涌现，但未来还有许多难题等待解决。如果想要继续进步，Facebook AI研究院、学术界，以及整个AI生态之间都需要继续保持开放、长期、基础的多学科研究协作体系。

参考文献

VQA: Visual Question Answering， https://arxiv.org/abs/1505.00468 (ICCV 2015)

Neural module networks， https://arxiv.org/abs/1511.02799 (CVPR 2016)

Visual Dialog， https://arxiv.org/abs/1611.08669 (CVPR 2017)

Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning， https://arxiv.org/abs/1611.08669 (ICCV 2017)

Inferring and Executing Programs for Visual Reasoning， https://arxiv.org/abs/1705.03633 (ICCV2017)

Learning to Reason: End-to-End Module Networks for Visual Question Answering， https://arxiv.org/abs/1704.05526 (ICCV 2017)

Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training， https://arxiv.org/abs/1703.10476 (ICCV 2017)

CLEVR: A Diagnostic Dataset for Compositional Language and Elementary VisualReasoning， https://arxiv.org/abs/1612.06890 (CVPR 2017)

Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a GenerativeVisual Dialog Model， https://arxiv.org/abs/1706.01554 (NIPS2017)

A simple neural network module for relational reasoning， https://arxiv.org/abs/1706.01427 (NIPS2017)

FiLM: Visual Reasoning with a General Conditioning Layer， https://arxiv.org/abs/1709.07871