一口气11项发布 一文看懂百度大脑的NLP布局
8月25日,百度CTO王海峰在百度大脑语言与知识技术峰会上,首次对外全面完整的阐述了百度的NLP布局,还推出了一揽子11项新发布。
自然语言理解(NLP)的名词解释是这样的,自然语言是人类智慧的结晶,是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。
那么,百度是如何理解这项挑战的?他们为此做了哪些研究和布局,我们一探究竟。
知识图谱是机器认知世界的基础
王海峰表示,在百度语言与知识技术的布局和发展中,始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。
对此,2010年,他们就成立了自然语言处理部,“纵览百度语言与知识技术发展历程,从研究方法、研究对象、研究方向、产业应用等各个层面,布局完整,始终与应用的发展趋势、需求一脉相承,与产业接轨。”
一手是技术探索,一手是应用落地,王海峰认为缺一不可。
他指出,知识图谱是机器认知世界的重要基础,百度的大规模知识图谱有超50亿实体和5500亿事实,并在不断演进和更新,“目前每天的调用次数超过400亿次。”
另外,百度不断在语言理解能力方面进行攻关,此前就提出了知识增强的语义理解框架ERNIE,在深度学习的基础上融入知识,同时具备持续学习能力,据介绍,基于知识图谱和语义表示,突破了阅读理解、对话理解以及跨模态深度语义理解等技术。
还有一点至关重要是语言生成,语言生成是语言与知识技术中的重要组成部分,百度提出基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息。与此同时,还提出了知识图谱驱动的对话控制技术,以及基于隐空间的大规模开放域对话模型PLATO等,实现规模化应用。
据披露,百度翻译目前可支持200多种语言,每天响应超过千亿字符的翻译请求。
让语言与知识技术在应用中产生价值
王海峰谈到要抓住技术发展趋势和产业发展趋势,那在产业发展方面百度有何布局?
百度集团副总裁吴甜给出了答案,她连续发布了语义理解技术与平台文心、智能文档分析平台TextMind和AI同传会议解决方案3大新品,同时发布了6项升级,包括智能创作平台的3个场景方案、以及智能对话定制与服务平台UNIT的3项全新升级。
吴甜在讲解中表示,我们希望让语言与知识技术凝聚成一系列技术平台和产品,在应用中产生大量价值。
具体来说,此次推出的语义理解技术与平台文心,基于深度学习平台飞桨,依托语义理解核心技术,集成预训练模型、NLP算法集、端到端开发套件和平台,提供一站式NLP开发与服务。“具备工业级落地实能力”吴甜谈到。
而在智能文档分析平台TextMind方面,基于OCR、NLP技术,以文档解析为核心,支持文档对比与文档审核,希望促进企业办公智能升级。
百度大脑智能创作平台则针对媒体应用场景升级,推出智能策划、智能采编、智能审校三大媒体场景方案。还有AI同传会议解决方案,吴甜现场展示了如何只用一台电脑和一部手机搭建一套同传服务。
在智能对话定制与服务平台UNIT方面,也发布了一揽子新特性,其中包括任务式对话理解、表格问答和融合通用的新对话引擎。据介绍,此次UNIT的升级,将进一步降低任务式对话、智能问答的定制成本。
值得一提的是,数据匮乏、算力不足历来是语言与知识技术研发中面临的瓶颈。
针对这样的问题,百度联合中国计算机学会、中国中文信息学会发起中文自然语言处理数据共建计划“千言”,千言一期由来自国内11家高校和企业的数据资源研发者共同建设,涵盖开放域对话、阅读理解等7大任务,20余个中文开源数据集。
百度技术委员会主席吴华表示,“计划在未来3年,面向20多个任务,收集和建设不少于100个中文自然语言处理数据集,覆盖语言与知识技术全部领域。”