2019 自然语言处理前沿论坛,百度NLP技术全揭秘

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

雷锋网 AI 科技评论按,近日,由百度联合中国计算机学会中文信息技术专委会、中国中文信息学会青工委举办的「2019 自然语言处理前沿论坛」上,来自百度和各大高校的嘉宾们分享了关于 NLP 技术研究的心得体会。

本次论坛主题为「机器之‘读、写、说、译’—— 探寻 NLP 未来之路」,来自百度的嘉宾们分别在语义计算、自动问答、语言生成、人机对话和机器翻译5场专题报告中分享了百度 NLP 技术的研究成果与应用。

语义计算

百度 NLP 主任研发架构师、语义计算技术负责人孙宇:百度语义计算技术及其应用

2019 自然语言处理前沿论坛,百度NLP技术全揭秘

孙宇主要介绍了百度语义表示技术的发展和研究成果、落地情况。

他表示,百度的语义计算方向包括语义表示学习、语义匹配计算、语义解析、多模态语义计算。计算机理解人类语言是一件非常有挑战性的事情。

语义表示技术存在的问题是,自然语言存在基本单元一词多义、多词同义、句子表述无限等特性。而我们的目标是将语言符号“表示”为另一种形式,这种表示具有语义上的等价性,更好的可计算性,更好地把握语义信息。

百度早期的语义表示技术采用的是基于检索和主题模型的表示方法,包括Term向量表示、PLSA、LDA等。

在 2013~2016 年,随着基于 DNN 表示技术的兴起,百度开始了 word embedding 的研究。采用的算法是 RNNLM + Hierarchical softmax,其规模达到 1T 百度网页数据,100 万超大规模中文词覆盖,主要研究问题是解决大规模分布式计算问题。2017 年,百度进行了基于大规模表示迁移在口语理解任务的探索。

语义匹配方面,百度 2013 年率先提出了 SimNet 技术,并成功用于网页搜索,在未来的几年中,对该技术做了很多改进创新,包括数据分析、粒度知识融合、交互式匹配模型等方面的创新。SimNet 显著改善了长冷 query 的搜索效果,提升了搜索智能化的水平,在百度搜索发挥至关重要的作用。当前,SimNet 语义匹配技术在百度各产品广泛应用。

现在,百度的最新研究是提出了知识增强的语义表示模型 ERNIE 并发布了基于 PaddlePaddle 的开源代码与模型。 框架包括基于海量百科、新闻、对话多源数据训练,双向多层 Transformer的 语义建模模型,融合并强化中文词、实体等先验语义知识学习,多阶段知识学习。在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配 等多个公开的中文数据集合上进行实验,均取得了最好的效果。

百度接下来的主要工作还是会以语义表示为重点突破方向,包括知识的利用,自监督任务的学习,弱监督信号的利用,多语言、跨模态表示等。

自动问答

百度 NLP 资深研发工程师、阅读理解与问答技术负责人刘璟:百度阅读理解技术研究及应用

2019 自然语言处理前沿论坛,百度NLP技术全揭秘

机器阅读理解是指让机器阅读文本,然后回答和阅读内容相关的问题。机器阅读理解是自动问答的关键技术之一,该技术可以广泛应用于智能问答、智能音箱、智能客服等产品中,因此长期以来受到学术界和工业界的广泛关注。得益于近两年阅读理解技术的快速进步,百度已将这一技术应用到智能问答中。

百度主要研发了面向搜索场景的多文档阅读理解模型 V-NET,以及知识表示和文本表示融合模型 KT-NET。

面向搜索场景的多文档阅读理解中,每个问题包含了多个段落,因此通常存在歧义信息较多的挑战。对此,百度研发了端到端的多文档阅读理解模型 V-NET,该模型在英文多文档阅读理解数据集 MSMARCO V2 问答任务上三次排名第一。

此外,机器阅读理解不仅要求机器理解给定的文本内容,还要求机器具备外部知识以支撑更为复杂的推理。为此,百度开创性地提出了语言表示与知识表示的深度融合模型 KT-NET,同时借助语言和知识进一步提升机器阅读理解的效果。KT-NET 目前是常识推理阅读理解数据集ReCoRD榜单上排名第一的模型。

除了在技术上不断投入研发,百度在去年推出了面向搜索场景的最大规模的中文阅读理解数据集 DuReader 2.0,规模包含了 30 万问题和 150 万文档和 66 万答案。百度、中国计算机学会和中文信息学会连续两年举办了基于 DuReader 数据集的机器阅读理解评测,推动了中文阅读理解技术的进步。

语言生成

百度 NLP 主任研发架构师、篇章理解与语言生成技术负责人肖欣延:自然语言生成,助力智能内容创作

2019 自然语言处理前沿论坛,百度NLP技术全揭秘

肖欣延表示,随着内容生态和智能交互的发展,自然语言生成得到越来越多的关注。一方面自然语言生成能够帮助内容创作者提升创作效率,另一方面,也能够用来改善交互的用户体验。

自然语言生成的愿景是,让机器像人类一样去表达和创作。具体来看,它包含很多类型的任务,包括数据到文本的生成、文本到文本的生成、诗歌对联的生成、多模生成、跨语言生成、对话生成等任务。此次报告中,主要从前面四个任务,介绍自然语言生成在内容创作的技术及应用。

首先是数据到文本的生成。这里展示了具体的足球比赛快讯生成样例。传统的方法是基于宏观规划、微观规划、表层实现的句法树生成算法,这种算法效果可控,在业务中十分实用。同时报告中也介绍了基于深度学习的方法。方法是将宏观规划融合到层次化序列生成算法中,在公开测试集效果不错。

其次是文本到文本的生成。这里展示了基于摘要聚合的写作,能够快速对热点进行综述报道。其中的核心技术是摘要技术。传统而实用的方法主要是抽取式的算法,通过文档分析、句子排序、句子选择、摘要构建输出摘要。百度同时也创新提出了基于信息选择网络的生成式摘要,并在公开主流数据上得到不错的实验效果。

第三是创意写作,包括诗歌和对联生成。百度创新提出了基于规划的神经网络,并用于诗歌生成。目前基于神经网络生成算法,在写诗写对联上已经都比较实用。

最后一个任务是多模生成。百度初步尝试了基于视频的写作,通过多模理解技术,如视频理解、观点分析、知识图谱的技术,获得视频的结构化、半结构化表示,然后在利用前面所述的基于数据的生成,撰写出内容丰富的文章。

肖欣延接着讨论了智能写作和人工撰写的关系。智能写作通过大数据分析,获取热点素材,然后快速根据数据生成报道,但是它生成的报道格式比较固定。而人类写作时,在看到数据或事物之后,会产生各种演绎和联想,深度挖掘各种题材,因而写作形式也多种多样。所以,从整体上来看,机器和人的差距依然存在,智能写作不能完全取代作者,而应该和作者分工合作。

为此百度推出了智能写作平台,提供自动写作和辅助写作的能力,进而帮助创作者提升内容创作的效率和质量,为智能创作领域提供更多可能。目前已经可以通过百度的 AI 平台进行访问。

谈到未来,他表示有很多比较看好的应用。一方面,写作将会更加自动、更生动、更有深度;另一方面,基于神经网络的生成模型会逐渐实用化;在媒体行业,智能写作会广泛的落地,成为人类创作的助手;在智能交互家居中,语言生成技术也能够很好的提升用户的交互体验。

人机对话

百度 NLP 主任研发架构师、UNIT 技术负责人孙珂博士:对话系统的应用技术探索

2019 自然语言处理前沿论坛,百度NLP技术全揭秘

近几年来,随着智能对话逐步深入到各行各业,用户已经可以在车载、音箱、客服、机器人等场景感受到智能对话给大家的生活带来的便捷与改变。

然而,随着智能对话技术产业化落地的进一步深入,也面临了更多的挑战。例如对话系统的建设成本与效率是企业面临的很大挑战,企业需要投入大量人力和时间进行数据 积累与整理、同时也要为高质量的效果与复杂系统集成 付出较多的成本。

据此,百度基于多年积累的自然语言理解与交互技术、深度学习、大数据等核心能力,打造了智能对话系统定制与服务平台 UNIT,帮助开发者降低对话系统研发门槛,精确适配业务需求,训练自己的对话系统。

在 UNIT 平台中,集成了目前工业级研发比较成熟的三种主流对话系统技术,包括任务型对话系统、问答型对话系统和闲聊型对话系统。孙珂博士重点介绍了其中的任务型对话系统的实现。据介绍,在任务型对话系统中,对话理解的深度与系统的实现成本是百度 UNIT 关注的核心问题。UNIT 通过融合语义表示预训练模型 ERNIE 的对话理解模型和数据辅助生产工具 DataKit,综合节省了 60% 的任务式对话系统研发成本。

除此之外, UNIT 还针对理解中的常见错误,总结抽象了 15 套对话容错机制,并将其标品化,据介绍,该机制可以通过简单的澄清反问,大幅提升对话理解的整体达成效率。

最后,孙珂博士还展示了 UNIT 基于阅读理解技术为开发者搭建的对话式文档问答技术。通过该技术,开发者只需上传业务文档并一键训练,即可在1分钟内快速定制问答系统。

机器翻译

百度人工智能技术委员会主席何中军:机器同传进展与展望

2019 自然语言处理前沿论坛,百度NLP技术全揭秘

同声传译最早出现在 1919 年,它最突出的特点是时间延迟小,信息传递效率非常高,因此被广泛的应用于重要国际会议、外交谈判等重要场景。在同声传译的过程中,同声译员需要全神贯注地进行监听,工作强度极高。由于苛刻的要求,全球同传译员稀缺。与巨大的市场需求相比,人才严重短缺。

目前,机器同声传译技术面临着三大挑战,一是技术挑战,二是数据挑战,三是评价挑战。

技术挑战方面,第一个问题是噪声问题,由于说话人的口音、语速、现场会议噪声等因素,使得语音识别的结果存在错误。第二个问题是断句,需要对语音识别后的结果进行分句并加上标点。第三个问题是,时间延迟与准确率存在矛盾。如果要提高准确率,就需要等待说话人的具体意思表达完整之后再进行翻译,时间延迟就会比较高。第四个问题是翻译的连贯性。同传的主要场景是对演讲者的内容进行实时翻译,需要保证翻译前后内容的连贯和一致。

第二是数据挑战。面向真实场景的训练数据只有几十到几百个小时,这么少的数据对于训练一个高质量的同传系统而言远远不够。

第三是评价挑战。在文本翻译的时候,我们有足够的时间去思考、润色和加工。而在同声传译时,实时性非常强,所采用的翻译方式与文本翻译不同。针对文本的评价方式不适用于评价同传。

针对语音识别错误的问题,百度提出了联合词向量编码模型。这个模型非常简单,就是在原来文本向量的基础上引入了音节向量,使得模型具有了一定的容错能力。

百度还提出了可控时延的翻译模型,来解决时间延迟的问题。在传统的文本翻译过程中,我们要等待一个句子完全输入完毕以后才能进行翻译。百度从同传译员那里获得灵感,提出了一个可以预测的模型,在原始句子只输入几个字以后,就可以开始预测和翻译。

在语篇翻译方面,百度提出了多轮解码策略,第一遍首先进行传统的粗解码,在这个基础上,再结合句子的上下文进行第二遍精细解码。同时,引入了强化学习策略,对产生的句子进行反馈和优化,以进一步提升句子之间的流畅度。

此外,在端到端机器同传模型方面,百度提出基于知识蒸馏的同传模型。利用大规模文本翻译语料训练一个教师模型,去优化端到端的同传翻译模型。该模型可以有效克服数据稀疏问题,显著提升翻译质量。

为推动机器同传技术发展,百度翻译联合 CCMT2019(全国机器翻译研讨会)推出 全球首个面向真实场景的中英同传评测任务 ,同时发布了首个真实演讲场景的中英同传数据集 CCMT2019-BSTC ,两项工作都将极大地推动同声传译的相关研究和发展。

何中军表示,未来,机器同传可以从以下三个方面开展工作,在模型方面,研究高鲁棒、低时延的同传模型;在数据方面,建设大规模面向真实场景的同传数据;在评价方面,建立面向同传的评价体系和标准。

雷锋网雷锋网 (公众号:雷锋网)

2019 自然语言处理前沿论坛,百度NLP技术全揭秘

随意打赏

nlp自然语言处理百度自然语言处理自然语言处理算法自然语言处理研究自然语言处理深度强化学习机器学习
提交建议
微信扫一扫,分享给好友吧。