LSTM面试_lstm面经

作者：盐析白兔 | 2024-07-05 18:11:37

踩

lstm面经

输入门 weight bias 决定更新信息决定什么值更新

遗忘门 weight bias 确定丢弃信息

输出门 weight bias 输出信息

原始cell（rnn部分）weight bias 创建新的候选值到状态中

导数：f（1-f）

映射到[0，1]

梯度消失：当值接近0或1时，梯度接近0，反向传播计算每层残差接近0，梯度接近0，在参数微调中引起梯度弥散，前几层梯度靠近0，不再更新。

函数中心不为0

tanh：状态和输出，对数据处理，创建候选值向量

导数：1-f^2

函数中心0 【-1,1】

relu

解决梯度消失问题

计算速度快，收敛快，在前几层也能很快更新

1、沿时间反向传播

从t时刻开始，计算每个误差项

2、误差向上一级传递

梯度爆炸：grident cliping

梯度范数超过给定值，等比收缩

梯度消失:

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】