赞
踩
RNN给神经网络加入了处理时间的能力,而传统的RNN会面临梯度消失(爆炸)的问题RNN vs LSTM: Vanishing Gradients,传递的时间信息也会越来越弱。给RNN引入长时记忆至关重要。因此有了Long Short Term Memory(LSTM)。
常见的LSTM结构如下图所示:
注意!该图容易产生误解!!此图是将LSTM按照时间维度进行了展开,实际上同一个时刻只有一个LSTM单元。
即如下图所示:
每个LSTM单元用三个门来决定保留的信息,LSTM计算门和信息有6个公式,我们将公式罗列如下,并在下一章节详细分析这6个公式。
遗忘门(forget gate)
遗忘门
输入门(input gate)
它决定了当前时刻网络的输入
输出门(output gate)
控制单元状态
输入信息
本次单元状态
本次单元状态由历史记忆和本次输入共同决定。
最终输出
我们把单个LSTM的cell拎出来进行详细分析,将会发现其实LSTM很简单!
我们对照上图分别对LSTM单元的三个门进行分析:
从左到右观察三个紫色方框:
本文主要参考了以下博文:
1. 详解 LSTM:https://www.jianshu.com/p/dcec3f07d3b5
2. Understanding LSTM Networks:http://colah.github.io/posts/2015-08-Understanding-LSTMs/
3. 知乎问题,LSTM神经网络输入输出究竟是怎样的?:https://www.zhihu.com/question/41949741这里写链接内容
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。