云从刷榜 RACE 阅读理解数据集论文详解
雷锋网 (公众号:雷锋网) AI 科技评论消息,2019 年 3 月 8 日,云从科技和上海交通大学联合宣布,在大型深层阅读理解任务数据集 RACE 数据集(ReAding Comprehension dataset collected from English Examinations)上登顶第一。论文中,云从科技与上海交通大学基于原创 DCMN 算法,提出了一种全新的模型,使机器阅读理解正确率提高了 4.2 个百分点,并在高中测试题部分首次超越人类(机器正确率 69.8%、普通人类 69.4%)。
RACE 是一个来源于中学考试题目的大规模阅读理解数据集,包含了大约 28000 个文章以及近 100000 个问题。它的形式类似于英语考试中的阅读理解(选择题),给定一篇文章,通过阅读并理解文章(Passage),针对提出的问题(Question)从四个选项中选择正确的答案(Answers)。该题型的正确答案并不一定直接体现在文章中,只能从语义层面深入理解文章,通过分析文章中线索并基于上下文推理,选出正确答案。相对以往的抽取类阅读理解,算法要求更高,被认为是「深度阅读理解」。
RACE 数据集的难点在于:由于正确答案并没有直接使用文章中的话术来回答,不能直接从文中检索得到答案。必须从语义层面深入理解文章,才能准确回答问题。
基于以上难点,云从科技与上海交通大学首创了一种 P、Q 与 A 之间的匹配机制,称为 Dual Co-Matching Network(简称 DCMN),并基于这种机制探索性的研究了 P、Q 与 A 的各种组合下的匹配策略。
结果显示,采用 PQ_A 的匹配策略,即先将 P 与 Q 连接,然后与 A 匹配,策略都得到了更优的结果。再将模型(基于 PQ_A 策略)与其他已知的模型、以及纯粹基于 BERT 自身的模型进行了比较,得到如下的结果:
对论文的具体解读如下:
1. DCMN匹配机制
以 P 与 Q 之间的匹配为例,说明 DCMN 的匹配机制。下图为 P 与 Q 之间的 DCMN 匹配框架。
论文使用目前 NLP 最新的研究成果 BERT 分别为 P 和 Q 中的每一个 Token 进行编码。基于 BERT 的编码,可以得到的编码是一个包含了 P 和 Q 中各自上下文信息的编码,而不是一个固定的静态编码,如上图中 H p 与 H q ;
其次,通过 Attention 的方式,实现 P 和 Q 的匹配。具体来讲,构建 P 中的每一个 Token 在 Q 中的 Attendances,即 Question-Aware 的 Passage,如上图中 M p 。这样得到的每一个 P 的 Token 编码包含了与 Question 的匹配信息;
为了充分利用 BERT 带来的上下文信息,以及 P 与 Q 匹配后的信息,将 P 中每个 Token 的 BERT 编码 H p 与 P 中每个 Token 与 Q 匹配后的编码 M p 进行融合,对 H p 和 M p 进行了元素减法及乘法操作,通过一个激活函数,得到了 P 与 Q 的最终融合表示,图中表示为 S pq ;
最后通过 maxpooling 操作得到 C pq l 维向量用于最后的 loss 计算。
2. 各种匹配策略研究
除了 P 与 A 之间的匹配,还可以有 Q 与 A、P 与 Q 之间的匹配,以及不同匹配得到的匹配向量间的组合,这些不同的匹配与组合构成了不同的匹配策略。对七种不同的匹配策略分别进行试验,以找到更加合适的匹配策略,分别是:
[P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A; Q_A], [PQ_A], [P_QA], [PA_Q]
「PA」表示先将 P 和 A 连接为一个序列,再参与匹配,「PQ」与「QA」同理。符号「[ ; ]」表示将多种匹配的结果组合在一起。[P_Q; P_A; Q_A] 模式下的模型架构如下图:
7 种不同策略通过试验,采用 PQ_A 的匹配策略,即先将 P 与 Q 连接,然后与 A 匹配,无论是在初中题目 (RACE-M)、高中题目 (RACE-H) 还是整体 (RACE),该策略都得到了更优的结果。
论文地址: https://arxiv.org/abs/1901.09381
雷锋网版权文章,未经授权禁止转载。详情见。