重磅 | 微软发布数据集MS MARCO,打造阅读理解领域的「ImageNet」
选自微软
机器之心编译
参与:吴攀、李亚洲
今天早些时候,微软在其官方博客上宣布发布了一个包含 10 万个问题和答案的数据集,研究者可以使用这个数据集来创造能够像人类一样阅读和回答问题的系统。此外,微软计划效仿 ImageNet,与其他人合作、最终创办正式的竞赛等。
这个数据集名叫 MS MARCO,表示 Microsoft MAchine Reading COmprehension(微软机器阅读理解)。其背后的团队声称这是目前这一类别中最有用的数据集,因为这个数据集是基于匿名的真实数据构建的。通过将该数据集免费开放给更多的研究者,该团队希望能够促进机器阅读领域的研究突破,就像之前研究者已经在图像识别和语音识别领域所取得颠覆性突破一样。
MS MARCO 数据集地址:http://www.msmarco.org
他们也希望这次开放能够促进「人工通用智能(AGI/artificial general intelligence)」的长期目标的实现,即创造出能够像人类思考的机器。
Rangan Majumder,微软 Bing 搜索引擎部门合作伙伴组的程序经理
微软 Bing 搜索引擎部门合作伙伴组的程序经理(partner group program manager)Rangan Majumder 是这个项目的领导者,他说:「为了实现人工通用智能的目标,我们首先需要机器能够像人类一样阅读和理解文档。这个数据集是向这个方向迈出的一步。」
Majumder 说,目前回答复杂问题的系统仍然还处在婴儿阶段。Bing 这样的搜索引擎和小娜那样的虚拟助手还只能回答一些基本的问题,比如「光明节那天开始?」或「2000 乘以 43 等于多少?」
Majumder 说,但在许多案例中,搜索引擎和虚拟助手只会将用户引导至一些搜索结果。 当然用户仍然会获得他们想要的信息,但那也需要用户在搜索结果列表中寻找所需的答案链接。
为了实现更好的自动问答系统,研究者需要更强大的训练数据。这样的训练数据需要能够教会人工智能系统识别问题和组织答案,并最终能够根据它们之前从未见过的特定问题构建出自己的答案。
Majumder 及其团队(包括微软的一些研究者和从事产品开发的人)表示,MS MARCO 数据集是非常有用的,因为该数据集的问题基于来自 Bing 搜索引擎和小娜虚拟助手的真实的、匿名的查询。该团队根据研究者所认为的更有趣的查询而对这些问题进行了选择。除此之外,这些问题的答案都是根据真实的网页而人工书写的,准确性已经过了验证。
通过提供真实的问题和答案,这些研究者表示他们可以训练出能更好地应对人们常问问题的细微差别和复杂性的系统,其中包括那些没有明确答案或有多个可能答案的问题。
比如说,这个数据集中包含了这样一个问题:「What foods did ancient Greeks eat?(古希腊人吃什么食物?)」要正确回答这个问题,他们需要检索多个文档中的信息,最后给出谷物、蛋糕、牛奶、橄榄、鱼、大蒜和卷心菜等食物作为答案。
微软首席人工智能科学家、深度学习技术中心(Deep Learning Technology Center)合作伙伴研究经理(partner research manager)邓力说之前的数据集在设计上都有一些特定的限制和局限性。这能让研究者可以更轻松地创造出可以被机器学习研究者形式化为所谓的「分类问题(classification problem)」的解决方案,但却不能帮助机器理解问题的实际文本。
微软深度学习技术中心合作伙伴研究经理邓力
邓力说 MS MARCO 的设计目的是为了帮助研究者实验更先进的深度学习模型,从而推动人工智能研究的进一步发展。
他说:「我们的数据集不只是为了使用真实世界数据,也是为了移除这些限制,以使新一代的深度学习模型能够在它们回答问题之前先理解数据。」
Majumder 说系统回答复杂问题的能力能够帮助人们更有效地获取信息,从而增强人类的能力。
让我们举个例子,假设一个加拿大学生需要了解她是否满足一个贷款项目的申请资格。搜索引擎可能会将该用户引导至一系列的相关网站,然后她需要自己阅读那些条条款款然后才能得出结论。但如果她有更好的工具,她的虚拟助手就能帮助她扫描这些信息,然后给出一个更细致的、甚至个性化的答案。
Majumder 说:「鉴于世界上的许多知识都是以书写的形式存在的,如果我们能让机器像人类一样阅读和理解文档,我们就为所有各种各样可能的情形开启了大门。」
长期目标:「人工通用智能(artificial general intelligence)」
至少就目前而言,研究者还仍然远远不能创造出能够理解人类所说的、看见的或写出的内容的系统――很多人将其称为「人工通用智能」。
在过去几年,微软与其它地方的机器学习和人工智能研究者在创造识别对话中单词的系统上已经取得了极大的进步,在准确识别图像组成上也是如此。
Majumder 说,「微软在语音识别和图像识别上已经起着领头作用,现在我们也打算带领阅读理解的研究。」
但是,他提到这不是任何单独一家公司就能解决的难题。Majumder 说他们团队开放这个数据集的一个原因就是想要与领域内的其他人合作。
MS MARCO 类似于机器学习和人工智能的其它领域的训练集,包括 ImageNet 数据集――它被认为是测试图像识别进展的第一数据集。微软的一个研究团队曾使用 ImageNet 来测试自己的首个深度残差网络,在图像识别的准确率上有了巨大的提升。
MS MARCO 团队也打算效仿 ImageNet,创建一个取得最好研究成果的团队排行榜。最终,他们可能会像 ImageNet 年度挑战赛一样创造一个更正式的比赛。
任何想要下载并将其用于非商业应用的研究人员都可以免费使用 MS MARCO 数据集。
原文:https://www.microsoft.com/en-us/research/publication/ms-marco-human-generated-machine-reading-comprehension-dataset/
©本文由机器之心编译, 转载请联系本公众号获得授权 。
?------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn