首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型?
新智元编译
来源:arXiv
整理报道:胡祥杰
新智元启动新一轮大招聘 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。
简历投递:j obs@aiera.com.cn
HR 微信: 13552313024
新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。
加盟新智元,与人工智能业界领袖携手改变世界。
【新智元导读】 Facebook 在尝试使用“门卷积网络”的方法来为语言建模,最近,他们首次取得了超过递归神经网络方法建模方法的性能表现,性能了超越目前被认为是最好的 LSTM 方法。 在 WikiText 数据集上,他们创造了新的性能记录。同时,在谷歌 Billion Word 基准上,单个GPU运行的横向对比中的表现也做到了最好。LSTM 目前在自然语言处理上有着广泛的应用,卷积的方法会替代递归的方法吗?本文将带来国内专家的深度解读。
语言模型对于语音识别系统来说,是一个关键的组成部分,在机器翻译中也是如此。近年来,神经网络模型被认为在性能上要优于经典的 n-gram 语言模型。经典的语言模型会面临数据稀疏的难题,使得模型很难表征大型的文本,以及长距离的依存性。神经网络语言模型通过在连续的空间中嵌入词语的方法,来解决这一难题。目前,语言建模的最好表现是基于长短记忆网络(LSTM,1997年由Hochreiter和 Schmidhuber 提出)的,它能对潜在的任意长期依存进行建模。
算法模型的突破意义在哪
Facebook AI 实验室的这一研究在发表后吸引了大量的注意力。LSTM目前在语言、语音和翻译等方面有着广泛的应用,是学术和产业都十分关注的技术,现在忽然出现了一种比它更好的模型,AI 圈内人士怎么看?
美国卡内基梅隆计算机系博士邓侃对新智元说:“这是 LSTM 的改进版,性能有所提高,但是方法论仍然沿用了 LSTM 的既有框架,并没有本质突破。 ”
国内语音技术专家贾磊也与新智元分享了他的观点。他说:“CNN 有一个优点 , 就是通过共享权重由局部到整体 , 实现对输入 ‘whole picture’ 的建模 ; 而 LSTM 是通过逐帧递推的方式来建模整体 , 而递推过程中引入 “ 门机制 ” 进行信息选择。”
他解释说:“ 通俗一点说,CNN更像视觉,天然具有二维整体性;而LSTM更像听觉和语音,总是通过串行的方式来理解整体。 Facebook的这篇论文恰恰是通过在CNN技术中引入LSTM的“门机制”来解决语言顺序依存问题,是对传统cnn技术很大的丰富和完善,文章具有很高的理论价值和实践意义。 但是到目前为止,CNN是否会取代LSTM,即全局共享权重连接是不是真的能够完全取代带有递推机制和门机制的LSTM,形式还并不明朗。 特别在一些高时效性的语音识别和语音交互问题上,由于严格的时效要求,LSTM这种随着时间的延展,逐步递推,逐渐遍及信号全貌的技术,还是有一定速度优势的。”
模型详情
图 : 用于语言建模的门卷积网络架构
统计学意义的语言模型评估的是词语序列的概率分布。这导致了倾向于根据正在处理的词语对下一个词语出现的概率进行建模的方法。 目前,语言建模的主要方法都是基于递归神经网络的。Facebook AI 研究院 提出了一个卷积的方法,来为语言建模。他们引入了一个新的门机制(gating mechanism),能够释放梯度传播,同时比Oord 等人在2016年提出的 LSTM 风格的 gating 性能上要好很多,并且还更加简单。
门(gating)机制控制着神经网络中的信息流动,在1997年时就被 Schmidhuber等人证明在递归神经网络中非常有用。LSTM通过一个由输入控制的单独单元(cell)和forget gates来激活长期记忆,这能让信息在多个时间点可以无阻碍地流动。如果没有这些门的存在,信息在每一个时间点上的变化可能会导致消失的情况。相反地,卷积神经网络并不会存在梯度消失的问题,在实验中,我们发现,他们并不要求有forget gates。
在论文摘要中,他们写道:“在WikiText-103上,我们创造了新的记录。同时,在谷歌 Billion Word 基准上,我们也获得了单个 GPU 的最佳表现。在设置中,延迟非常重要,比起递归机制的基线,我们的模型获得了一个维度的加速,因为计算能够多次并行运行。据我们所知,这是此类的任务中,一个非递归性的方法首次在性能上超越了向来强大的递归模型。”
测试结果
研究者基于两个大型数据集――WikiText-103和谷歌 Billion Word(GBW)进行测试,并与几个强大的 LSTM 和RNN 模型性能进行横向对比。得到的结果如下:
上图是门卷积神经网络(GCNN)模型与LSTM和RNN 模型在 Billion Word(GBW)数据集基准上进行测试的结果。在单个GPU的情况下,GCNN的性能做到了最好。 并且,据Facebook 研究者在论文中介绍,他们使用的 GCNN-13 模型拥有13层神经网络、每层包含1268个单元,LSTM每层拥有1024个单元。在与多GPU 进行对比时,只有超大型LSTM模型在性能上比GCNN好。但是,超大型LSTM -2048 (代表层数)使用了32个GPU,训练时间为3周,GCNN只使用1个GPU,训练时间1周。
另一个横向对比是在WikiText-103 上进行的,这个语言建模数据库包含了超过1亿个从Wikepedia 上被标注为Good 或者Featured的文章中提取的字符(tokens),另外,数据库中还包含了20万个单词的词汇表。
在这个数据集进行测试时,输入的序列是一篇完整的Wikipedia 文章,而不仅仅是一句话。上图的结果表明。GCNN 模型在这个问题上的性能也比LSTM要好得多。
上图是WikiText-103(左)和 Google Billion Word (右) 的在不同激活机制模型下的学习曲线。可以看到,门线性单元(GLU,图中红线)在实现向更低的复杂性转换的过程是最快的。
被超越的 LSTM
LSTM 和递归神经网络能捕捉长期的依存性,在被提出后便以席卷之势迅速成为自然语言处理的奠基石。 LSTM可以记忆不定时间长度的数值,区块中有一个Gate能够决定input是否重要到能被记住及能不能被输出output。
LSTM 模型的基本架构,其中中间四个相互交互的层,是整个模型的核心
此外,由于LSTM 适用于处理和预测时间序列中间隔和延迟非常长的重要事件。因而在自然语言理解(NLU)上有着重要作用。
LSTM 目前在行业内有着广泛的应用,范围包括但不限于:不分段连续手写识别上、自主语音识别、机器翻译等等。 作为非线性模型,LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。
2009年,用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别,2013年运用 TIMIT 自然演讲数据库达成17.7%错误率的纪录。
研究者的自我评价
在论文的最后,研究者总结说,我们(Facebook)发布了一个卷积的神经网络,使用一个新的门机制来为语言建模。与递归神经网络相比,我们的方法建立了一个输入词语的层级表征,让它可以更好地捕获长距离的依存性(dependencies),这和语言学中语法形式体系中的树结构分析的思路很像。由于特征通过的是固定数量的神经网络层,并且是非线性的,这种相似的属性够产生学习。这和递归神经网不同,递归神经网络中,处理步骤的数量根据词在输入中的位置会有所不同。
结果显示,我们的门卷积神经网络在WikiText-103 上打破了记录,在更大型的谷歌Billion Word 基准中,单一GPU上的模型训练表现也优于其他几个强大的 LSTM 模型。
不谈取代,我们谈谈优化
正如上文中专家的分析,在语言建模上,现在卷积神经网络和递归神经网络各自有不同优势。虽然在这一研究中 卷积神经网络在性能上表现出了对递归神经网络,尤其是LSTM的全面超越,但是,现在谈取代还为时尚早。
算法模型的演进是不断优化的渐进过程,Facebook带来了一种新的思路,并且在研究中进行了验证,究其意义,正如作者在论文中介绍的那样: 一个非递归性的方法首次在性能上超越了向来强大的递归模型 。但是,算法模型到底只是工具,并不存在真正的“取代”之争。对于实际应用来说,还是要看效果。该模型对于整个产业应用的意义,目前来看还有待验证,毕竟LSTM现在已经得到了广泛的应用,并且效果还不错。
论文地址:https://arxiv.org/pdf/1612.08083v1.pdf
新智元招聘
职位 运营总监
职位年薪:36- 50万(工资+奖金)
工作地点:北京-海淀区
所属部门:运营部
汇报对象:COO
下属人数:2人
年龄要求:25 岁 至 35 岁
性别要求:不限
工作年限:3 年以上
语 言:英语6级(海外留学背景优先)
职位描述
-
负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向
-
擅长开拓市场,并与潜在客户建立良好的人际关系
-
深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态
-
主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力
-
带领团队完成营业额目标,并监控管理项目状况
-
负责公司平台运营方面的战略计划、合作计划的制定与实施
岗位要求
-
大学本科以上学历,硕士优先,要求有较高英语沟通能力
-
3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作
-
对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解
-
具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力
-
具备优秀的时间管理、抗压能力和多任务规划统筹执行能力
-
有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑
-
有媒体广告部、市场部,top20公关公司市场拓展部经验者优先
新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。