什么是长短期记忆-LSTM?他的核心逻辑是什么?

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

本文首发自 easyAI - 人工智能知识库

什么是长短期记忆-LSTM?他的核心逻辑是什么?

什么是 LSTM?

长短期记忆网络——通常被称为 LSTM,是一种特殊的 RNN,能够学习长期依赖性。由 Hochreiter 和 Schmidhuber(1997)提出的,并且在接下来的工作中被许多人改进和推广。LSTM 在各种各样的问题上表现非常出色,现在被广泛使用。

LSTM 被明确设计用来避免长期依赖性问题。长时间记住信息实际上是 LSTM 的默认行为,而不是需要努力学习的东西!

所有递归神经网络都具有神经网络的链式重复模块。在标准的 RNN 中,这个重复模块具有非常简单的结构,例如只有单个 tanh 层。

什么是长短期记忆-LSTM?他的核心逻辑是什么?

LSTM 也具有这种类似的链式结构,但重复模块具有不同的结构。不是一个单独的神经网络层,而是四个,并且以非常特殊的方式进行交互。

什么是长短期记忆-LSTM?他的核心逻辑是什么?

不要担心细节。稍后我们将逐步浏览 LSTM 的图解。现在,让我们试着去熟悉我们将使用的符号。

什么是长短期记忆-LSTM?他的核心逻辑是什么?

在上面的图中,每行包含一个完整的向量,从一个节点的输出到其他节点的输入。粉色圆圈表示逐点运算,如向量加法;而黄色框表示学习的神经网络层。行合并表示串联,而分支表示其内容正在被复制,并且副本将转到不同的位置。

LSTM的核心思路

LSTM 的关键是细胞状态,即图中上方的水平线。

细胞状态有点像传送带。它贯穿整个链条,只有一些次要的线性交互作用。信息很容易以不变的方式流过。

什么是长短期记忆-LSTM?他的核心逻辑是什么?

LSTM 可以通过所谓“门”的精细结构向细胞状态添加或移除信息。

门可以选择性地以让信息通过。它们由 S 形神经网络层和逐点乘法运算组成。

什么是长短期记忆-LSTM?他的核心逻辑是什么?

S 形网络的输出值介于 0 和 1 之间,表示有多大比例的信息通过。0 值表示“没有信息通过”,1 值表示“所有信息通过”。

一个 LSTM 有三种这样的门用来保持和控制细胞状态。

如果对详细的技术原理感兴趣,可以看看这篇文章《 Illustrated Guide to LSTM’s and GRU’s: A step by step explanation 》

随意打赏

逻辑思维能力逻辑思维逻辑核心
提交建议
微信扫一扫,分享给好友吧。