赞
踩
最近面试被问到了LSTM为什么能够解决long-range dependency的问题,回答这个问题实际上需要把BPTT公式写出来,在这篇博文中我们进行了部分推导
习翔宇:RNN Part 3-RNN中的BPTT算法和梯度消失问题zhuanlan.zhihu.com但是不够系统化,本篇博文将完全对RNN的BPTT以及LSTM的BPTT进行推导,并对long-range dependency问题进行分析
假设RNN的基本方程如下所示
损失函数定义如下:
对于一个输入序列
我们接下来分别对
首先对
然后对
如下公式可知
同样的道理,公示(8)中的第一项
将其带入到公示(8)中即可得到
这样我们把公式(6)中的第三项就展开了,现在带入公式(6)中即可得到:
按照同样的方式,我们对
在上面的推导中,我们对
sigmoid函数的导数大家都很熟悉了,处于
因此当输入序列过长的时候,在求取一个比较远的时刻
梯度爆炸问题容易解决,例如采用clip的方式即可。但是梯度消失的问题比较难以解决,我们下面介绍LSTM为什么能够缓解梯度消失问题
LSTM的公式如下所示
其中
那么需要连乘的部分计算可得:
从之前的
本文由两个问题后续进行提升:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。