百度2019语言与智能技术竞赛完美收官,真实数据对接产业真实问题
语言是人类信息传递最重要的媒介,让机器理解语言并进行交互是人工智能的基本挑战。近日,由中国计算机学会(CCF)和中国中文信息学会(CIPS)共同发起并联合主办的第四届语言与智能高峰论坛(The 3rd Language & Intelligence Summit)在北京语言大学梧桐会堂召开。2019语言与智能技术竞赛在本次论坛上进行了颁奖。百度技术委员会联席主席吴华博士受邀出席“2019语言与智能技术竞赛”颁奖仪式并发表了竞赛总结演讲。
2019语言与智能技术竞赛由中国中文信息学会、中国计算机学会和百度公司联合举办,旨在为研究者提供学术交流的平台与机会,推动语言与智能领域的技术发展与应用。今年有2300多支队伍参赛,累计收到提交结果6212份。其中六成队伍来自海内外高校和科研机构,包括近百所211大学和多家科研机构。另外四成队伍来自三百多家企业,包含微软、华为、蚂蚁金服、网易、金山、中国移动等知名企业。三大核心任务的最好系统效果取得显著提升,平均成绩提高30%。本次大赛中,深思考人工智能机器人 科技 (北京)有限公司、深圳追一科技有限公司和复旦大学分别获得了机器阅读理解、知识驱动对话及信息抽取三大竞赛任务一等奖。参赛者在完成挑战的同时,其成果也将有力地推动智能搜索、智能推荐、智能交互等人工智能应用迈上新台阶。
百度技术委员会联席主席吴华博士总结本届竞赛成果
在AI技术逐渐与更多生活场景深度融合的时代,如何让机器像人一样具备语言能力,可以理解和运用自然语言,并基于知识学习持续进化,是人工智能目前需要解决的核心问题之一。据悉,百度作为此次大赛的承办方,不仅为选手开放了大规模的真实数据集,还为选手提供了全面的技术与资源支持。三大任务上,百度分别开发了先进的、基于飞桨(PaddlePaddle)深度学习框架的开源基线模型,帮助选手快速进入开发工作,大幅提升参赛效率。
“今年三个赛事中的阅读理解任务更聚焦在当前系统尚不能正确回答的问题,旨在全面评测机器进行深度语言理解以回答复杂问题的能力。”吴华在报告中表示,“知识驱动对话任务百度在360万知识信息构建的知识图谱基础上,人工标注了3万组有主动能力的对话数据、超过27万中文句子。”值得关注的是知识驱动对话任务是百度首次开放的对话数据集。信息抽取任务上百度发布了业界规模最大的中文信息抽取数据集。可以说,本届比赛更具有实践挑战性。
获得机器阅读理解竞赛任务一等奖、来自深思考科技CEO兼AI算法科学家杨志明博士分享了参赛心得:“此次竞赛的机器阅读理解任务,重点关注当前优秀的阅读理解系统尚不能正确回答的问题,全面评测机器进行深度语言理解以回答复杂问题的能力。百度为此提供了大量来源于真实应用场景的数据,对于揭示和解决实际问题非常有价值,竞赛本身对我们也极富挑战性。这不仅推动了学术界自然语言处理研究水平的发展,更有效地推动了人工智能领域应用的发展。“
机器阅读理解竞赛任务获奖团队
在本届语言与智能技术竞赛中,还有一些基于兴趣临时在企业内组建的竞赛队伍,获得知识驱动对话任务榜首的深圳追一科技有限公司团队就是其中之一。采访中,他们表示“此次竞赛为中文自然语言研究提供了新的数据与任务形式,通过竞赛验证了我们在模型上的一些想法,也发现了目前技术上的缺陷和不足。大赛提供的数据对研究带有外部知识的多轮对话场景很有价值,构建的任务也有足够的挑战性。”
知识驱动对话竞赛任务获奖团队
来自复旦大学知识工场的梁家卿博士在代表信息抽取任务冠军队伍做报告分享时表示,“由于自然语言文本的复杂性和智能应用对知识的高可靠性要求,构建能支撑各种智能应用的知识抽取器并不容易。在业界规模最大的中文信息抽取数据集SKE下,我们实现了对给定Schema的F1接近90%的抽取器。此次大赛的信息抽取任务和我们现有研究的课题契合度非常高,我们在构建大规模知识图谱的工作中,已经广泛应用了基于百度提供的数据集所训练的模型。 “
信息抽取竞赛任务获奖团队
作为人工智能领域的领军者,百度始终秉承开放生态的理念,积极开放其核心能力,助力 互联网 、 金融 、医疗、零售、出行、服务等行业,推动中国产业智能化升级。此次百度协同举办语言与智能技术竞赛,推动了人工智能技术进步;同时,百度一直致力于发掘人工智能方面的人才,加速人工智能技术的落地应用,为我国人工智能学术和产业的发展做出重要贡献。