赞
踩
总览学习目录篇 链接地址:https://blog.csdn.net/xczjy200888/article/details/124057616
Deep = Many Hidden Layers
z
=
w
x
+
b
i
a
s
=
1
×
1
+
(
−
1
)
×
(
−
2
)
+
1
=
4
z=wx+bias=1\times1+(-1)\times(-2)+1=4
z=wx+bias=1×1+(−1)×(−2)+1=4
σ
(
z
)
=
1
1
+
e
−
z
=
1
1
+
e
−
4
≈
0.98
\sigma(z)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-4}} \approx 0.98
σ(z)=1+e−z1=1+e−41≈0.98
造成梯度消失的原因:
如上图,针对
x
1
x_1
x1的输入,得到
z
1
1
>
z
2
1
z_1^1>z_2^1
z11>z21经过maxout激活之后,得到输出
a
1
1
a_1^1
a11。
z
1
1
z_1^1
z11和
a
1
1
a_1^1
a11之间存在线性关系。
不同的input值,max的值不同,输出值不同。
Maxout相关论文 Ian J. Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron C. Courville, Yoshua Bengio: Maxout Networks. ICML (3) 2013: 1319-1327
难以找到最优参数的原因:
解决方案:引入动量momentum
下图第三个点,可能因为惯性,翻过小坡,达到一个更优的点。
引入动量前
引入动量后
移动:最后一步的移动量减去当前的梯度(类似会受惯性的影响)
λ
λ
λ类似学习参数
上图,红色线为计算的梯度,蓝色的线会实际移动的方向,绿色虚线为上一步移动的方向,红色虚线为上一步梯度移动的方向。
上图最后一个图,当动量不足时,不能完全保证达到全局最优,但是如果动量足够可以翻越小坡,给达到最优一个希望。
理想的情况下,如果知道测试集的损失值变化,那么,当测试集的loss达到最低时就应该停止训练。
随机失活dropout:将隐含层的部分权重或输出随机归零,降低节点间的相互依赖性,从而实现神经网络的正则化,降低其结构风险。
训练集:每个小批量数据mini-batch,都需要随机抽样需要失活的神经元。
SWATS相关论文:Keskar N S , Socher R . Improving Generalization Performance by Switching from Adam to SGD[J]. 2017.
文中,切换两种梯度算法的中间节点没有细说。
4.3.1 Adam存在的问题
4.4.1 SGDM存在的问题
4.4.4 提出了One-cycle LR
在优化选学(二)后续完成后继续…
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。