教你几招搞定 LSTMS 的独门绝技(附代码)
雷锋网(公众号:雷锋网)按:本文为雷锋字幕组编译的技术博客,原标题 Taming LSTMs: Variable-sized mini-batches and why PyTorch is good for your health,作者为 William Falcon 。
翻译 | 赵朋飞 马力群 涂世文 整理 | MY
如果你用过 PyTorch 进行深度学习研究和实验的话,你可能经历过欣喜愉悦、能量爆棚的体验,甚至有点像是走在阳光下,感觉生活竟然如此美好 。但是直到你试着用 PyTorch 实现可变大小的 mini-batch RNNs 的时候,瞬间一切又回到了解放前。
不怕,我们还是有希望的。读完这篇文章,你又会找回那种感觉,你和 PyTorch 步入阳光中,此时你的循环神经网络模型的准确率又创新高,而这种准确率你只在 Arxiv 上读到过。真让人觉得兴奋!
我们将告诉你几个独门绝技:
1.如何在 PyTorch 中采用 mini-batch 中的可变大小序列实现 LSTM 。
2. PyTorch 中 pack_padded_sequence 和 pad_packed_sequence 的原理和作用。
3.在基于时间维度的反向传播算法中屏蔽(Mask Out)用于填充的符号。
TIPS: 文本填充,使所有文本长度相等,pack_padded_sequence , 运行LSTM,使用 pad_packed_sequence,扁平化所有输出和标签, 屏蔽填充输出, 计算交叉熵损失函数(Cross-Entropy)。
为何知其难而为之?
当然是速度和性能啦。
将可变长度元素同时输入到 LSTM 曾经可是一个艰巨的技术挑战,不过像 PyTorch 这样的框架已经基本解决了( Tensorflow 也有一个很好的解决方案,但它看起来非常非常复杂)。
此外,文档也没有很清楚的解释,用例也很老旧。正确的做法是使用来自多个示样本的梯度,而不是仅仅来自一个样本。这将加快训练速度,提高梯度下降的准确性 。
尽管 RNNs 很难并行化,因为每一步都依赖于上一步,但是使用 mini-batch 在速度上将会使其得到很大的提升。
序列标注
先来尝试一个简单的序列标注问题,在这里我们会创建一个 LSTM/GRU 模型 对贾斯汀·比伯的歌词做词性标注。譬如:“is it too late now to say sorry?” (移除 ’to’ 和 ’?’ )。
数据格式化
在实际情况中你会做大量的格式化处理,但在这里由于篇幅限制我们不会这样做。为简单起见,让我们用不同长度的序列来制作这组人造数据。
当我们将每个句子输入到嵌入层(Embedding Layer)的时候,每个单词(word)将会映射(mapping)到一个索引(index),所以我们需要将他们转换成整数列表(list)。
索引一个词嵌入矩阵(Embedding Matrix)
这里我们将这些句子映射到相应的词汇表(V)索引
对于分类标签也是一样的(在我们的例子中是 POS 标记),这些不会嵌入 。
技巧1:利用填充(Padding)使 mini-batch 中中所有的序列具有相同的长度。
在模型里有着不同长度的是什么?当然不会是我们的每批数据!
利用 PyTorch 处理时,在填充之前,我们需要保存每个序列的长度。我们需要利用这些信息去掩盖(mask out)损失函数,使其不对填充元素进行计算。
我们用同样的方法处理标签 :
数据处理总结:
我们将这些元素转换成索引序列并通过加入 0 元素对每个序列进行填充(Zero Padding),这样每批数据就可以拥有相同的长度。
现在我们的数据的形式如下:
构建模型
借助 PyTorch 我们可以搭建一个非常简单的 LSTM 网络。模型的层结构如下:
1. 词嵌入层(Embedding Layer)
2. LSTM 层
3. 线性全连接层
4. Softmax 层
技巧2:使用 PyTorch 中的 pack_padded_sequence 和 pad_packed_sequence API
再次重申一下,现在我们输入的一批数据中的每组数据均已被填充为相同长度。
在前向传播中,我们将:
1. 对序列进行词嵌入(Word Embedding)操作
2. 使用 pack_padded_sequence 来确保 LSTM 模型不会处理用于填充的元素。
3. 在 LSTM 上运行 packed_batch
4. 使用 pad_packed_sequence 解包(unpack)pack_padded_sequence 操作后的序列
5. 对 LSTM 的输出进行变换,从而可以被输入到线性全连接层中
6. 再通过对序列计算 log_softmax
7. 最后将数据维度转换回来,最终的数据维度为 (batch_size, seq_len, nb_tags)
技巧 3 : 屏蔽(Mask Out )我们并不想在损失函数中处理的网络输出
屏蔽(Mask Out) 那些填充的激活函数
最终,我们准备要计算损失函数了。这里的重点在于我们并不想让用于填充的元素影响到最终的输出。
小提醒:最好的方法是将所有的网络输出和标签展平。然后计算其所在序列的损失值。
哇哦~ 就是这么简单不是吗?现在使用 mini-batches 你可以更快地训练你的模型了!
当然这还仅仅是个非常简单的 LSTM 原型。你还可以做这样一些事情来增加模型的复杂度,以此提升模型的效果:
1. 利用 Glove Embeddings 进行初始化。
2. 使用 GRU Cell 代替 LSTM 部分结构
3. 采用双向机制(别忘了修改 init_hidden 函数)
4. 通过用卷积神经网络生成编码向量并加入词向量中来使用字符级特征
5. 添加 Dropout 层
6. 增加神经网络的层数
7. 当然,也可以使用基于 Python 的超参数优化库(test-tube,链接:https://github.com/williamFalcon/test_tube) 来寻找最优超参数。
总结一下:
这便是在 PyTorch 中解决 LSTM 变长批输入的最佳实践。
1. 将序列从长到短进行排序
2. 通过序列填充使得输入序列长度保持一致
3. 使用 pack_padded_sequence 确保 LSTM 不会额外处理序列中的填充项(Facebook 的 Pytorch 团队真应该考虑为这个绕口的 API 换个名字 !)
4. 使用 pad_packed_sequence 对步骤 3的操作进行还原
5. 将输出和标记展平为一个长的向量
6. 屏蔽(Mask Out) 你不想要的输出
7. 计算其 Cross-Entropy (交叉熵)
完整代码:
原文链接: https://towardsdatascience.com/taming-lstms-variable-sized-mini-batches-and-why-pytorch-is-good-for-your-health-61d35642972e
雷锋网 (公众号:雷锋网) 雷锋网
。