首战告捷!网易有道在NLPCC中文语法错误修正比赛中斩获冠军

速途网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

速途网8月30日消息(报道/路途)在第七届国际自然语言处理与中文计算会议(以下简称NLPCC)中,第一次新增了“中文语法错误修正”共享任务比赛。最终网易有道AI团队贡献出最佳纠错成果,于众多参赛高手中脱颖而出,力压包括阿里巴巴团队、北京大学团队在内的5组全球学术界和业界知名研究团队,斩获冠军。

首战告捷!网易有道在NLPCC中文语法错误修正比赛中斩获冠军

业界参赛团队

首战告捷!网易有道在NLPCC中文语法错误修正比赛中斩获冠军

网易有道的召回率和综合评价指标均为第一

  随着中国影响力的日益扩大,汉语学习热潮席卷全球,越来越多机构对于中文作为第二语言的(Chinese as Second Language,简称CSL)研究开始推进。NLPCC首次在比赛中加入中文语法错误识别及纠正的项目,也是希望行业与时俱进,与社会热点结合,提高CSL领域的研究热情。

  本次比赛中,主办方提供的测试集是北京外国语大学的外籍学生撰写的中文作文;训练集则采集自外国人学习中文的网站,包括非母语人士撰写的中文文本和母语者的注释和修正。

  比赛伊始,需要由参赛者开发能自动检测、纠正CSL编写者错误的人工智能算法模型,利用训练集提高算法模型对相关问题的熟悉程度和修正能力后,输入测试集进行正式研发成果检验。主办方就修正后结果的准确度、召回率和综合评价指标这三重评判标准进行打分。

  最终,网易有道AI团队以召回率第一、综合评价指标第一的绝对优势,首战告捷。

  对于外国人而言,汉语的主要难点在于它的孤立语特征。英语通过时态和词缀表达语法和词性,汉语则是依靠独立的虚词和固定词序表达语法意义,通过一个个字词的排列组合构造句义语境,对解读的要求很高。

以大赛考题为例,原句是“她已经毕业了大学,专业是视觉设计”,经过有道AI团队人工智能修正后的结果是“她已经大学毕业,专业是视觉设计”。

看似简单的一步,实际是有道AI团队的人工智能先对训练集的人类专家给出的注释和修正进行学习,再对比赛原句进行错误识别、衡量及修正,从分词断句、句子通顺程度、逻辑连贯性等多个维度综合考量。

有道AI团队表示,算法的高精准度主要源自“多步推断”的设计。第一层面的多步推断是指,将表层错误和深层次语法错误分离、分层次解决。例如:

原句:晚上还要做作业或者跟朋友们一起完儿睡晚觉。

修正句:晚上还要做作业或者跟朋友们一起玩儿很晚

模型会先将“完”和“玩”这类错别字、标点符号等表层错误识别纠正,再在理解句义的基础上,调整深层语法错误。

第二层面的多步推断是指,在修正过程中更为本真地还原人类的认知行为——推敲。为了更精准周到的表达,人类习惯先在脑海中反复推敲一句话的措辞、情绪等,几番尝试后才会将最满意的搭配说出口。在推敲的过程中,有些字被修改了,有些词汇搭配也被修改了,对于AI而言,这是两种不同粒度的修正。因此,有道人工智能团队设计了字级别和子词级别两种神经网络模型,并将两种模型进行不同搭配组合,对例句做逐层推敲,得到5种修订结果,再使用一个表征句子流利度的语言模型来对修订结果进行筛选,从而获得最终结果。

首战告捷!网易有道在NLPCC中文语法错误修正比赛中斩获冠军

业界参赛团队

首战告捷!网易有道在NLPCC中文语法错误修正比赛中斩获冠军

网易有道的召回率和综合评价指标均为第一

  随着中国影响力的日益扩大,汉语学习热潮席卷全球,越来越多机构对于中文作为第二语言的(Chinese as Second Language,简称CSL)研究开始推进。NLPCC首次在比赛中加入中文语法错误识别及纠正的项目,也是希望行业与时俱进,与社会热点结合,提高CSL领域的研究热情。

  本次比赛中,主办方提供的测试集是北京外国语大学的外籍学生撰写的中文作文;训练集则采集自外国人学习中文的网站,包括非母语人士撰写的中文文本和母语者的注释和修正。

  比赛伊始,需要由参赛者开发能自动检测、纠正CSL编写者错误的人工智能算法模型,利用训练集提高算法模型对相关问题的熟悉程度和修正能力后,输入测试集进行正式研发成果检验。主办方就修正后结果的准确度、召回率和综合评价指标这三重评判标准进行打分。

  最终,网易有道AI团队以召回率第一、综合评价指标第一的绝对优势,首战告捷。

  对于外国人而言,汉语的主要难点在于它的孤立语特征。英语通过时态和词缀表达语法和词性,汉语则是依靠独立的虚词和固定词序表达语法意义,通过一个个字词的排列组合构造句义语境,对解读的要求很高。

以大赛考题为例,原句是“她已经毕业了大学,专业是视觉设计”,经过有道AI团队人工智能修正后的结果是“她已经大学毕业,专业是视觉设计”。

看似简单的一步,实际是有道AI团队的人工智能先对训练集的人类专家给出的注释和修正进行学习,再对比赛原句进行错误识别、衡量及修正,从分词断句、句子通顺程度、逻辑连贯性等多个维度综合考量。

有道AI团队表示,算法的高精准度主要源自“多步推断”的设计。第一层面的多步推断是指,将表层错误和深层次语法错误分离、分层次解决。例如:

原句:晚上还要做作业或者跟朋友们一起完儿睡晚觉。

修正句:晚上还要做作业或者跟朋友们一起玩儿很晚

模型会先将“完”和“玩”这类错别字、标点符号等表层错误识别纠正,再在理解句义的基础上,调整深层语法错误。

第二层面的多步推断是指,在修正过程中更为本真地还原人类的认知行为——推敲。为了更精准周到的表达,人类习惯先在脑海中反复推敲一句话的措辞、情绪等,几番尝试后才会将最满意的搭配说出口。在推敲的过程中,有些字被修改了,有些词汇搭配也被修改了,对于AI而言,这是两种不同粒度的修正。因此,有道人工智能团队设计了字级别和子词级别两种神经网络模型,并将两种模型进行不同搭配组合,对例句做逐层推敲,得到5种修订结果,再使用一个表征句子流利度的语言模型来对修订结果进行筛选,从而获得最终结果。

首战告捷!网易有道在NLPCC中文语法错误修正比赛中斩获冠军

AI“推敲”的模型流程图

目前,网易有道已将成熟的英文纠错研发成果应用于有道精品课等教育类产品中,协助进行英文作文批改。对于尚未完全成熟的中文语法错误修正技术,网易有道首席科学家段亦涛表示,当人工智能可以理解复杂度高的语法错误,积累足量中文语料库后,才会作为产品功能落地。网易有道的产品矩阵中不乏针对CSL学习者的课程及产品,未来应用场景广阔,除了设计成面向中文学习者的自动在线纠错学习工具,也可以与中小学校合作,为教师提供辅助批改。


随意打赏

网易有道在线网易有道笔记首战告捷网易有道斩获冠军
提交建议
微信扫一扫,分享给好友吧。