2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

砍柴网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

3月1日，由百度公司、中国中文信息学会(CIPS)、中国计算机学会(CCF)联手举办的“2018机器阅读理解技术竞赛”正式开启报名通道。本次竞赛，百度将提供面向真实应用场景迄今为止规模最大的中文阅读理解数据集DuReader。竞赛官网及报名通道已正式开启，任何团队和个人都可以报名参加，获胜团队还将分享总额近10万人民币的奖金。

阅读不仅是人类获取知识、提高心智的重要途径，对于机器而言，拥有阅读能力同样也能够实现持续学习和进化。机器阅读理解让机器阅读文本，然后回答和阅读内容相关的问题，其中涉及到的理解、推理、摘要等复杂技术，对机器而言颇具挑战。该任务的研究对于智能搜索、智能推荐、智能交互等人工智能应用具有重要意义，是自然语言处理和人工智能领域的重要前沿课题。这也是百度联合举办2018机器阅读理解技术竞赛的重要原因。

为了给予参赛者最大力度支持，本次竞赛将提供面向真实应用场景的大规模中文阅读理解数据集DuReader，包含来自百度搜索的30万个真实问题，每个问题对应5个候选文档文本，以及人工撰写的优质答案。同时，数据集还标注了问题类型、实体和观点等丰富信息。数据集将划分为28万的训练集，1万开发集和1万测试集。该数据集中包含了去年11月百度首批发布的DuReader数据集中的20万问题数据，参赛者可自由下载用于训练和测试。本次竞赛报名团队还将获得新增的10万问题数据集。DuReader是迄今为止最大的面向真实需求的中文阅读理解数据集，将为此次参赛的研究者提供有力支撑。

据悉，本次竞赛的任务是对于给定问题q及其对应的文本形式的候选文档集合D=d1, d2, ..., dn，要求参评阅读理解系统自动对问题及候选文档进行分析，输出能够满足问题的文本答案a。为了便于参赛选手快速了解竞赛任务，竞赛还提供了两个开源的阅读理解基线系统，并采用ROUGH-L和BLEU作为评价指标。

百度在自然语言处理（NLP）领域已经过十余年积累与沉淀，具备了最前沿、最全面、最领先的技术布局，不仅专注于前瞻技术探索，更致力通过技术应用解决实际问题。在刚刚过去的春节假期中，百度NLP团队研发的V-Net模型以46.15的Rouge-L得分登上微软MS MARCO机器阅读理解测试排行榜首。对此，微软 MARCO官方 twitter也发文表示祝贺。值得一提的是，此次百度只凭借单模型（single model）就拿到了第一名，并没有提交更容易拿高分的多模型集成（ensemble）结果。

目前，世界机器阅读理解领域经典赛事多集中在英文领域，比如由斯坦福大学发起的SQuAD挑战赛以及微软的MS MARCO机器阅读理解测试，而基于百度DuReader的2018机器阅读理解技术竞赛无疑将成为中文机器阅读理解领域的一大盛事。此次百度与CIPS、CCF联合举办2018机器阅读理解技术竞赛并开放数据集，旨在进一步提升机器阅读理解技术的研究水平，并希望研究者能够利用数据集产出更好更优质的机器阅读理解模型，推动语言理解和人工智能领域技术研究和应用的发展。报名地址及赛事详情请登录2018机器阅读理解技术竞赛官网。