谷歌开源语义解析器,像语言专家一样理解语言
搜索引擎巨头谷歌公布了其用于解析复杂语句的代码库。此举将有助于开发者们建立能够真正理解我们人类的应用程序。
现在,谷歌的算法已经可以像一个专业的语言学家那样,解析简单句子中的结构与内容。得益于谷歌所拥有的强大的语法与语义分析能力,它能提供更加准确的搜索结果。同时,随着与谷歌相关的设备与服务开始逐渐转向语音控制,这种分析能力显得尤为重要。
昨日,谷歌正式向外部的软件工程师开放这些语义分析算法。发布的工具将帮助程序员们更好地搭建基于语言的应用程序与服务,避免出现当下聊天机器人频频出现的烦人误解。同时,将这些算法开源也有助于程序员们更好地接入谷歌不断改进的机器学习技术。
谷歌的智能手机早已经能够实现语音控制,同时这家公司正在集思广益,考虑发展类似于亚马逊Echo等更为依赖语音交互的家用设备。因此,从公司战略角度出发,谷歌发布的这些更为易用的语言理解工具包也合情合理。
谷歌的自然语言理解与机器学习项目的领导者,费尔南多·佩雷拉(Fernando Pereira)说,“我们的大多数用户通过语言与我们交流。他们会通过键盘输入或者语音问许多问题。因此为了使我们能更好的为用户们服务,我们必须确保我们的系统能够理解用户们的需求。”
SyntaxNet是今天发布的众多工具包中的一个 。SyntaxNet能够通过学习词组与短语的语境与日常使用来理解单词与词组的含义。这一工具包还兼容谷歌之前公布的深度学习框架TensorFlow。可以说,到目前为止,SyntaxNet是利用TensorFlow搭建得最为复杂的一个组件。
此外, 谷歌还公布了一个经过预先训练的英语语义分析器,称为Parsey McParseface (谷歌的一名发言人说,他们之前一直在为这个工具取名字纠结不已,直到有一个人提出了这个顺口的绰号)。输入这一分析器的文字将按照语义成分,比如名词,动词,主语和形容词等实现自动分解。这一工具的出现,降低了电脑面对模棱两可的问题或命令时实现正确理解的难度。
谷歌的研究很多时候依赖于数据分析和机器学习。机器学习中的某些方法确实在语义理解中发挥了重要作用。举个例子来说,Facebook试图通过向电脑输入大量的无标签数据来训练电脑,最终实现语句解析。但是如同网上的一篇论文中描述的那样,谷歌的语言理解项目依赖的是人类的智慧。在八年多的时间里,专业的语言学家们一直为谷歌提供文本注释。谷歌最近所取得的进展,正是依赖于利用深度学习神经网络来分析这些经过注释的文本。
毫无疑问,利用电脑来实现语言理解的难度非常之大。这主要是因为人们的日常语言常常是模棱两可的。一个非常简单的询问,比如说“给我找帽中猫(Find me cats in hats)”就充满歧义:戴着帽子的猫或者是坐在帽子里的猫。人类可以通过常识来分辨这些语句的意思,而谷歌则依赖于机器学习技术。通过训练具有不同文法结构的句子,谷歌的深度学习系统可以判断出一句话最有可能的正确结构。在刚才的这个例子中,它推定提问者应该对时尚的猫(即戴着帽子的猫)感兴趣。
戴夫·奥尔(Dave Orr)是一名谷歌的产品经理,负责寻找谷歌语言理解研究项目的潜在商业应用。戴夫向我展示了谷歌这项基于深度学习的技术。他将来自麻省理工科技评论的几篇文章输入了一个谷歌内部使用的语言处理器。尽管这个处理器犯了几个小错误,比如说,把位于句子开头的will误会成是我的名字 (注:作者名是Will),但是总体上来看,这个语言处理器在句子注释方面拥有着令人震惊的正确率。它能够找出涵盖文章标题或引文内容的语句结构。
奥尔说,“ 这是目前世界上最棒的语义处理器,我们认为它已经接近了人类的水平 。”
在这个处理器内部,谷歌将自然语言系统与一个称为Knoledge Graph的语义信息数据库结合了起来。 这使得整套系统可以识别出特定的物品,任务,地点以及其他概念,并作出相应的回应。这套系统还能通过比较新词组与其他出现在类似语句中的词组进行比较,而实现正确的分类。
到目前为止, 这项技术已经可以在15种语言上工作 。奥尔补充道,有一些语言难以实现语法分析,相应的训练过程就会变得较为困难。
然而,就理解英文而言,这项技术还远称不上完美。佩雷拉说,“我们的这些系统最适合于解析那些具有良好的结构,经过精心的编辑的文本。社交媒体以及搜索语句的不规范性,大大增加了语义解析的难度。我们已经取得了一些进展,但是未来仍然具有很大的改进空间。”
现在来看,仍然有大量的模糊语句分析必须依赖于人类的常识。佩雷拉说,“我们从我们的日常经验,同伴与父母们的教导中掌握了强大的语言理解能力。而这一部分对于我们的系统而言则完全缺失了“。
研究语言理解的斯坦福大学教授诺阿古德曼说,不断加强的语句理解能力仅仅是电脑掌握语言的一个开端。“语法当然是语言中的很重要的一部分,但是一个真正的跨越将是从理解语法到理解语义,从仅仅理解简单的语义到理解复杂的深层次的含义”。
© MIT Technology Review 中国大陆地区独家授权,未经授权严禁转载及翻译。
“DeepTech深科技”是由麻省理工科技评论创建的一个新科技内容品牌。更多内容请关注官方微信公众号:mit-tr