谷歌发布问答系统新语料，同时发布相关挑战赛

雷锋网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网 AI 科技评论按，1 月 23 日，谷歌人工智能语言研究科学家 Tom Kwiatkowski 和 Michael Collins 在 Google AI Blog 上发布了一篇博文，宣布发布一个新的大规模训练和评估开放领域问答系统的语料库 Natural Questions （NQ），旨在推动人们开发出更有效、更强大的问答系统。

开放域问答（QA）是自然语言理解（NLU）中的一项基准任务，旨在模拟人们如何寻找信息，通过阅读和理解整个文档来找到问题的答案。给出一个用自然语言表达的问题（「为什么天空是蓝色的？」）一个问答系统应该能够阅读网页（比如这个维基百科页面）并返回正确的答案，即便这个答案有点复杂和冗长。然而，目前还没有大量公开的可用于训练和评估问答模型的自然生成问题（如人们寻求信息时提出的问题）及答案。这是因为，为了回答问题而收集一个高质量的数据集，不仅需要大量真实的问题源，还需要大量的人力才能找到正确的答案。

为了推动问答系统的研究进展，他们很高兴地发布自然问题（Natural Questions，NQ），这是一个新的大规模训练和评估开放领域问题回答系统的语料库，它第一个复制了人们找到问题答案的端到端流程。NQ 很大，由 30 万个自然发生的问题以及维基百科页面上的人工注释答案组成，它们可以被用于训练问答系统。他们还包括 16000 个由 5 个不同的注释员标注了答案（对同一个问题）的例子，这有助于评估经过训练的问答系统的性能。对于计算机来说，回答琐事是很容易的。由于在 NQ 中回答问题需要比回答琐事对问题有更深入的理解，基于这些数据他们还组织了一次竞赛，以帮助推动计算机自然语言理解这项研究的进展。雷锋网 (公众号：雷锋网)

数据

NQ 是首先使用自然发生的查询的数据集，它专注于通过阅读整个页面而不是从短段落中提取答案来查找答案。为了创建 NQ，他们从用户向谷歌搜索引擎提出的真实、匿名、聚合的查询开始。然后，他们要求注释员通过阅读整个维基百科页面来找到答案，就像问题是他们自己提出来的一样。注释员寻找包含推断答案所需的所有信息的长答案，以及简洁地用一个或多个词语回答问题的短答案。NQ 语料库中注释的准确度高达 90%。

NQ旨在使问答系统能够阅读和理篇整个维基百科文章，这些文章可能包含问题的答案，也可能不包含问题的答案。首先，系统需要确定问题是否定义得足够好，可以回答——许多问题都包含错误的假设，或者描述太模糊，无法简明地回答。然后，他们需要确定维基百科页面中是否有任何部分包含推断答案所需的所有信息。他们认为，长答案识别任务——找到推断答案所需的所有信息——需要比在知道长答案后找到短答案更深入的语言理解水平。

谷歌发布问答系统新语料，同时发布相关挑战赛