11篇论文、首届同传研讨会、技术分享,百度AI闪耀ACL2020
近日,第58届国际计算语言学协会年会ACL 2020(The Association for Computational Linguistics)于线上开启。这次会议,百度共有11篇论文被录用,覆盖自然语言处理众多前沿研究方向;百度联合谷歌、Facebook、清华大学等全球顶尖机构,共同举办首届同声传译研讨会;在线上展台主题技术TALK环节,百度还就开放域人机对话技术、ERNIE核心技术等业内关注的话题展开分享,展现了中国企业在自然语言处理及人工智能领域的技术创新与落地实践能力。
ACL成立于1962年,是自然语言处理领域影响力最大、最具活力的国际学术组织之一。自成立之日起,致力于推动计算语言学及自然语言处理相关研究的发展和国际学术交流。百度的自然语言处理技术,在技术创新及应用上始终保持领先,一直被视为自然语言处理研究界的“第一梯队”,此次在ACL 2020大会中的亮眼表现,正是源于百度在技术领域的长期积累。
百度11篇论文被收录,扎实A I技术 彰显国际影响力
ACL2020共收录百度11篇论文
除了在国际 AI 学界的影响力外,ACL 无论是审稿规范还是审稿质量,都是当今 AI 领域国际顶级会议中公认的翘楚。
本届大会百度共有11篇论文被收录,覆盖了人机对话系统、情感分析/预训练表示学习、NLP 文本生成与摘要、机器翻译/同声翻译、知识推理、AI 辅助临床诊断等诸多自然语言处理界的前沿研究方向,提出了包括端到端开放域生成模型PLATO、面向开放域对话的基于图谱的对话管理机制、情感知识增强的语言模型预训练方法、基于图表示的多文档生成式摘要方法 GraphSum 等诸多新框架、新算法、新数据,不仅极大提升了相关领域的研究水平,也将推动人机交互、机器翻译、智慧医疗等场景的技术落地应用。
此次 ACL 2020的审稿周期,从去年12月一直持续到今年4月,相比往年几乎增加了一倍。会议投稿数量为 3088 篇,共有 779 篇论文被接收,包括 571 篇长论文和 208 篇短论文,接收率仅为25.2%。百度11篇论文被收录的成绩,不仅意味着研究成果得到了国际学术界的认可,也证明了其研究本身在实验严谨性、思路创新性等方面的实力。
领衔举办ACL 2020首届机器同传研讨会,百度技术领先性得到公认
同声传译以其高效的信息传递方式,广泛应用于国际会议、商务会谈、新闻发布、法律诉讼等多种跨语言交流场景。机器同传结合了机器翻译(Machine Translation)、语音识别(Automatic Speech Recognition)和语音合成(Text-To-Speech)等人工智能技术,已经成为重要的前沿研究领域。目前,机器同传还需要攻克高鲁棒性、高翻译质量、低延时的相关问题。
本次会议中,百度联合国内外顶尖企业和高校共同举办全球首届同声传译研讨会,汇集包括机器翻译、语音处理和人类口译领域的研究和从业人员,共同就机器同传架构、翻译模型、数据资源等问题展开研讨。
百度技术委员会主席、百度自然语言处理首席科学家吴华受邀做线上报告
研讨会有多场高质量主题演讲,百度技术委员会主席、百度自然语言处理首席科学家吴华等国内外多名专家就机器同传研究现状、面临挑战以及未来发展进行探讨,加深了机器同传与口译两个领域之间的交流,极大地推动了机器同传技术发展以及机器和人工同传的协同合作。
在本次研讨会同期举办的国际首届同传评测比赛中,百度行业首发业内最大规模面向真实场景的中英同传数据,涵盖信息技术、 经济 、文化、生物、艺术等多个领域。 同时,基于百度深度学习平台飞桨的一站式AI开发实训平台百度大脑AI Studio,百度为参赛选手提供在线编程环境、免费GPU算力、海量开源算法和开放数据,帮助开发者快速创建和部署模型。
展现多个技术亮点,百度 线上 展 台主题技术TALK 引关注
在本次大会的线上展台主题技术TALK环节,百度也展现出多个亮点,体现出百度领先的技术创新与落地实践能力,围绕ERNIE核心技术、开放域人机对话技术、智慧医疗、生物医药等业内关注的话题,百度献上了精彩的演讲。
在展台主题技术TALK环节,百度研究人员做出主题为《ERNIE的技术原理、平台与应用》的分享。百度提出了知识增强的语义表示模型 ERNIE 及持续学习语义理解框架 ERNIE 2.0,在16 个中英文任务上超越国际最好效果,取得了 SOTA 的效果。去年12月,ERNIE 在国际权威的通用语言理解评估基准 GLUE上首次突破90大关,超越人类三个点,取得全球第一。今年3月,在全球最大规模的国际语义评测 SemEval 上获得5项世界冠军。
近期,百度又相继发布了面向生成的预训练技术 ERNIE-Gen 和知识增强的视觉-语言预训练模型 ERNIE-ViL。ERNIE-Gen 首次提出基于多流机制生成完整语义片段,在5个生成类任务上取得了SOTA效果。ERNIE-ViL首次将场景图知识融入多模态预训练, 刷新了5项多模态任务纪录,并登顶权威榜单VCR。在刚刚举行的世界人工智能大会上,百度文心(ERNIE)知识增强语义理解技术与平台获得了大会最高荣誉奖项“卓越人工智能引领者”(SAIL)奖。
在《基于意图图谱的开放域对话生成框架》分享中,百度研究人员介绍到,为了提升多轮对话下的整体对话质量,提出基于意图图谱的对话生成框架,在该框架中引入显式的对话管理机制,以增强对多轮对话流的控制能力。在公开数据集上的实验结果表明,以上模型或系统在主题连贯性、对话目标引导成功率等关键多轮效果指标上显著超越基线模型。
同时,百度借助这次展台技术Talk发布了业界首个基于隐变量的大规模对话模型PLATO以及基于PLATO相关工作扩展升级的PLATO-2。该模型使用了最多16亿参数,发布了中英文版本。其中,英文效果超越了Google的Meena和Facebook AI Research的Blender,中文模型也远超过现有基线。
在主题为《基于计算语言学的新冠病毒分析和疫苗设计算法》的分享中,针对新冠疫情,百度研究人员把自然语言处理领域的经典句法分析算法移植到核酸序列结构分析,介绍了全球首个线性时间的 RNA 结构预测算法 LinearFold,可以将新冠病毒基因组全序列结构分析的时间从55分钟降低到 27 秒。在此基础上,百度还研发出了全球首个mRNA 疫苗序列设计算法 LinearDesign,可以设计出结构最稳定的疫苗序列。对于新冠S蛋白,该算法16分钟内就可设计出优化疫苗序列,解决了mRNA疫苗研发中的一个重大难题。目前,百度正在积极推进和中国疾控中心、各大疫苗公司和科研机构的合作。
在主题为《自然语言处理和知识图谱技术在临床辅助决策中的应用研究》的演讲中,百度研究人员分享了灵医智惠在临床辅助决策中应用。以百度世界领先的中文自然语言处理和知识图谱等技术为基础,灵医智惠打造了强大的医疗认知计算能力,形成了医疗场景下的语言、知识和认知计算三位一体的临床辅助决策引擎。
近年来,中国 AI 企业、开发者及高校在国际AI顶会上的表现也愈发亮眼。ACL2020大会中,无论是论文入选量、领衔举办研讨会、同传比赛,百度都展现出中国 AI 行业头雁的实力。百度NLP是百度AI技术和应用的萌芽起点和带动力量,始终聚焦核心前沿,持续引领技术创新,持续引领中国NLP技术发展方向,不仅为此次大会交上了一份满意的答卷,也为中国AI崛起、走向世界发展贡献了重要的力量。