创新命名实体识别技术,网易云商获NLP权威赛事冠军
近日,第11届CCF自然语言处理与中文计算国际会议(NLPCC 2022)揭晓了开放评测任务评比结果。网易云商(网易智企旗下服务 营销 一体化平台) AI 技术团队在命名实体识别评测任务中勇夺冠军,展现了在自然语言处理和深度学习技术领域的领先实力。
NLP领域权威赛事 , 网易云商一鸣惊人
CCF自然语言处理与中文计算国际会议(The CCF International Conference on Natural Language Processing and Chinese Computing,简称NLPCC)是CCF-NLP(中国计算机学会自然语言处理技术委员会,前身为中国计算机学会中文信息技术委员会)的年度会议,也是自然语言处理(NLP)和中文计算 (CC)领域最为知名的国际学术会议之一。NLPCC专注于自然语言处理及中文计算领域的学术和应用创新,致力于推动该领域学术界和工业界研究、创新与应用的发展,目前已发展成为覆盖全国、具有国际影响力的学术与创新交流平台。
NLPCC 2022沿袭了NLPCC大会传统,举办了若干自然语言处理任务的开放评测,既涵盖了经典的自然语言处理任务,也包括了时下颇受关注的前沿任务,包括:用知识模型回答问题、语音实体链接、多模态产品总结、多模态对话理解和生成、"多标签分类、命名实体识别、科学文献内容提取"、"对话文本分析、主题提取和对话总结 "以及细粒度对话社会偏差测量等七大评测任务。
本次评测受到了学术界和工业界的广泛关注。以网易云商AI团队报名参赛的评测任务(五)——多标签分类、命名实体识别、科学文献内容提取为例,共吸引了57支队伍报名,包括清华大学、北京大学、哈尔滨工业大学、大连理工大学、华东师范大学、南京理工大学、北京邮电大学、中国科学院信息工程研究所等科研机构和华为、腾讯、阿里巴巴、招商银行等知名企业,竞争极其激烈。
网易云商AI团队首次在业内公开赛事中亮相,并在命名实体识别子任务中一举夺魁,展现了在自然语言处理,特别是命名实体识别领域的顶级技术能力。
创新NER算法模型 , 提升预测准确率
命名实体识别(Named Entity Recognition,简称NER),是自然语言处理中的一项基础任务,有着非常广泛的应用。命名实体通常指文本中具有特定意义或者指代性强的短语,包括人名、地名、组织机构名、时间日期、专有名词等。NER系统就是要从非结构化的自然文本中抽取出上述实体,并且可以按照业务需求识别出更多种类的实体,比如产品名称、型号、大小等。同时,NER技术也是关系抽取、事件抽取、知识图谱、问答系统等诸多NLP应用的基石。
在传统机器学习的方法中,通常以序列标注方式对NER进行建模,利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。随着深度学习的发展,深度神经网络可以有效处理众多NLP任务,对于NER来讲,利用神经网络自动完成特征提取,可以大幅提高NER的识别准确率。尤其是近两年,得益于BERT、GPT等大规模预训练语言模型的出现,NER识别准确率又得到了一次大幅度的提升。
在NLPCC 2022 命名实体识别评测任务中,参赛团队需要基于最先进的NLP和深度学习技术,设计命名实体识别模型对专业领域内的文本内容进行识别。不同于以给定的文本内容为基础的传统识别模型,网易云商AI团队通过爬虫获取给定文本的上下文,为给定的文本增加额外的领域相关知识,从而进行文本内容层面的增强,提高模型整体的识别能力。另外,为了解决训练语料稀缺的问题,团队采用了相似实体替换以及远程监督两种方式对原始数据的数量进行扩增,将总训练语料提升至原来的5倍,整体提高了模型的性能。
网易云商冠军算法采用了业界领先的W^2NER模型,突破了传统序列标注的建模方式,将实体识别问题转换为了词与词之间的关系分类问题。通过这种建模方式,可以同时解决多种不同的实体识别,包括扁平实体、嵌套实体、非连续实体。该模型除了使用常见的TransformerEncoder结构捕捉文本信息,还额外引入了多粒度的空洞卷积来挖掘词与词之间的关系,并在解码阶段采用了双线性分类器和多层感知器共同解码,提高了整体的预测准确率。
落地实际业务 , 冠军算法加速任务处理
目前,本次比赛中所使用的命名实体识别技术已经成功运用在了网易云商的实际业务中。例如多轮对话机器人、外呼机器人等,在真实业务场景中实现机器人问题匹配率和解决率的提升,进一步加速任务处理。
多轮对话机器人能够基于任务场景搭建任务流程,通过上下文追踪明确访客意图,解决复杂场景,完美契合任务型场景。当用户在进行退换货、维修等售后问题咨询时,大都会与机器人产生多轮对话,以帮助机器人获取足够的信息,快速提供精准的答案。
比如,当用户询问 “我的WN54洗衣机坏了,北京哪里可以修”时,NER识别技术可以将 “WN54” 识别为具体的型号,将“北京” 识别为地点,由此快速找到对应答案(例如此商品在北京的维修地点)并推送给用户。该场景中,NER识别技术的应用辅助机器人提升了知识点的匹配率,也控制了一触即达流程的跳转。此外,在FAQ单轮问答场景中,通过识别实体,也可以提供更好的答案。
NER识别技术不仅可以应用在文本机器人中,在语音机器人的应用中也发挥着巨大作用。传统人工电话每人每天可拨打约120通,而外呼机器人可拨打近1200通,还可以通过语音识别理解用户意图,进行自助任务办理,因此当下被广泛应用于批量通知或回访的场景中。
以反诈案件处理场景为例,当机器人询问“你给他们转了多少钱”,用户回复:“第一次八十,第二次三百多,总共不到四百”,其中的“八十”、“三百多“ 以及 “不到四百”,都可被NER识别技术进行抽取识别,在判定为诈骗金额后将结果记录并反馈,按照预置的标准处理流程进入到下一步,例如反诈中心工作人员介入处理等。得益于NER识别技术的应用和高识别准确率,反诈案件的信息搜集环节可以直接交给外呼机器人,使得有限的工作人员专注于重要案件处理,既实现了任务及时受理不遗漏,也节约了人力成本,提升处理效率。
未来,网易云商将加大对前沿技术的研究力度,探索深度学习、自然语言处理等技术的新方向,打造更智能的服务营销一体化平台。