当前位置:   article > 正文

LSTM面试_lstm面经

lstm面经

核心:细胞状态 三个门控 去除或增加信息到细胞状态 选择让信息有多少通过

1、每个时刻weight同时变化

2、每个时刻weight相互影响

3、参数(八个)

输入门 weight bias 决定更新信息 决定什么值更新

遗忘门 weight bias 确定丢弃信息

输出门 weight bias 输出信息

原始cell(rnn部分)weight bias 创建新的候选值到状态中

4、sigmoid与tanh

sigmoid:门控、确定哪部分输出

导数 :f(1-f)

映射到[0,1]

梯度消失 :当值接近0或1时,梯度接近0,反向传播计算每层残差接近0,梯度接近0,在参数微调中引起梯度弥散,前几层梯度靠近0,不再更新。

函数中心不为0

tanh:状态和输出,对数据处理,创建候选值向量

导数:1-f^2

函数中心0 【-1,1】

relu

解决梯度消失问题

计算速度快,收敛快,在前几层也能很快更新

5、LSTM反向传播

1、沿时间反向传播

从t时刻开始,计算每个误差项

2、误差向上一级传递

6、LSTM防止梯度消失、爆炸

梯度爆炸:grident cliping

梯度范数超过给定值,等比收缩

梯度消失:

 

 

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号