资源 | 谷歌开源机器阅读理解数据集MC

搜狐科技 • 8年前扫码分享

选自GitHub

机器之心编译

参与：李亚洲

MC-AFP 是一个基于公众可用的 Gigaword 数据集（AFP 部分）生成的机器理解数据集。创造这样数据集的技术在论文「Building Large Machine Reading-Comprehension Datasets using Paragraph Vectors」中有所报告。

我们生成了一个大约有 2 百万样本的数据集，在上面估算人类的准确率大概为 90%。一种结合了循环神经网络的表征能力与全连接多层网络判别能力的全新神经网络架构在此数据集上取得的最好结果是：83.2% 的准确率。

压缩包中附上的是加密的 MC-AFP 数据集以及密码。

　　项目地址： https://github.com/google/mcafp

　　 论文：Building Large Machine Reading-Comprehension Datasets using Paragraph Vectors

　　摘要：我们提出的技术对机器阅读理解任务有双重贡献：使用 paragraph-vector 模型创造大型机器理解（MC）数据集的技术；一种全新的、混合的神经网络架构，它结合了循环神经网络的表征能力与全连接多层网络的判别能力。我们使用 MC-数据集生产技术建立了一个大约 2 百万样本的数据集，在上面我们凭借经验判断出了人类水平（大约 91）的准确率，以及各种计算机模型的表现。在我们试验过的所有模型中，我们的混合神经网络架构获得了最高的表现（83.2）的准确率。该架构与人类水平之间的差距为未来模型的提升提供了足够的空间。

　　论文地址： https://arxiv.org/pdf/1612.04342v1.pdf

　　 ?------------------------------------------------

加入机器之心（全职记者/实习生）：hr@almosthuman.cn

投稿或寻求报道：editor@almosthuman.cn

广告&商务合作：bd@almosthuman.cn