赞
踩
之前的文章讲解了RNN的基本结构和BPTT算法及梯度消失问题,说到了RNN无法解决长期依赖问题,本篇文章要讲的LSTM很好地解决了这个问题。本文部分内容翻译自Understanding LSTM Networks。
文章分为四个部分:
首先对RNN的公式做一下变形:
s t = t a n h ( W s s t − 1 + W x x t + b ) = t a n h ( W [ s t − 1 , x t ] + b ) o t = s o f t m a x ( V s t + c )
其中: [ s t − 1 , x t ] [s_{t-1},x_t] [st−1,xt]表示把 s t − 1 s_{t-1} st−1和 x t x_t xt两个向量连接成一个更长的向量。所以有 W [ s t − 1 , x t ] = W s s t − 1 + W x x t W[s_{t-1},x_t]=W_ss_{t-1}+W_xx_t W[st−1,xt]=Wsst−1+Wxxt,写成矩阵乘法形式:
[ W ] [ s t − 1 x t ] = [ W s W x ] [ s t − 1 x t ] = W s s t − 1 + W x x t
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。