赞
踩
输入门 weight bias 决定更新信息 决定什么值更新
遗忘门 weight bias 确定丢弃信息
输出门 weight bias 输出信息
原始cell(rnn部分)weight bias 创建新的候选值到状态中
导数 :f(1-f)
映射到[0,1]
梯度消失 :当值接近0或1时,梯度接近0,反向传播计算每层残差接近0,梯度接近0,在参数微调中引起梯度弥散,前几层梯度靠近0,不再更新。
函数中心不为0
tanh:状态和输出,对数据处理,创建候选值向量
导数:1-f^2
函数中心0 【-1,1】
relu
解决梯度消失问题
计算速度快,收敛快,在前几层也能很快更新
1、沿时间反向传播
从t时刻开始,计算每个误差项
2、误差向上一级传递
梯度爆炸:grident cliping
梯度范数超过给定值,等比收缩
梯度消失:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。