首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型？

搜狐科技 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

新智元编译

来源：arXiv

整理报道：胡祥杰

　　 新智元启动新一轮大招聘 ：COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

　　 简历投递：j obs@aiera.com.cn

　　 HR 微信： 13552313024

　　 新智元为COO和执行总编提供最高超百万的年薪激励；为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。

　　 加盟新智元，与人工智能业界领袖携手改变世界。

　　 【新智元导读】 Facebook 在尝试使用“门卷积网络”的方法来为语言建模，最近，他们首次取得了超过递归神经网络方法建模方法的性能表现，性能了超越目前被认为是最好的 LSTM 方法。在 WikiText 数据集上，他们创造了新的性能记录。同时，在谷歌 Billion Word 基准上，单个GPU运行的横向对比中的表现也做到了最好。LSTM 目前在自然语言处理上有着广泛的应用，卷积的方法会替代递归的方法吗？本文将带来国内专家的深度解读。

　　语言模型对于语音识别系统来说，是一个关键的组成部分，在机器翻译中也是如此。近年来，神经网络模型被认为在性能上要优于经典的 n-gram 语言模型。经典的语言模型会面临数据稀疏的难题，使得模型很难表征大型的文本，以及长距离的依存性。神经网络语言模型通过在连续的空间中嵌入词语的方法，来解决这一难题。目前，语言建模的最好表现是基于长短记忆网络（LSTM，1997年由Hochreiter和 Schmidhuber 提出）的，它能对潜在的任意长期依存进行建模。

算法模型的突破意义在哪

　　 Facebook AI 实验室的这一研究在发表后吸引了大量的注意力。LSTM目前在语言、语音和翻译等方面有着广泛的应用，是学术和产业都十分关注的技术，现在忽然出现了一种比它更好的模型，AI 圈内人士怎么看？

　　 美国卡内基梅隆计算机系博士邓侃对新智元说：“这是 LSTM 的改进版，性能有所提高，但是方法论仍然沿用了 LSTM 的既有框架，并没有本质突破。 ”

　　国内语音技术专家贾磊也与新智元分享了他的观点。他说：“CNN 有一个优点，就是通过共享权重由局部到整体，实现对输入 ‘whole picture’ 的建模；而 LSTM 是通过逐帧递推的方式来建模整体，而递推过程中引入 “ 门机制 ” 进行信息选择。”

　　他解释说：“ 通俗一点说，CNN更像视觉，天然具有二维整体性；而LSTM更像听觉和语音，总是通过串行的方式来理解整体。 Facebook的这篇论文恰恰是通过在CNN技术中引入LSTM的“门机制”来解决语言顺序依存问题，是对传统cnn技术很大的丰富和完善，文章具有很高的理论价值和实践意义。 但是到目前为止，CNN是否会取代LSTM，即全局共享权重连接是不是真的能够完全取代带有递推机制和门机制的LSTM，形式还并不明朗。 特别在一些高时效性的语音识别和语音交互问题上，由于严格的时效要求，LSTM这种随着时间的延展，逐步递推，逐渐遍及信号全貌的技术，还是有一定速度优势的。”