赞
踩
#pic_center =400x
系列文章:
paragraph1
paragraph2
paragraph3
当深度网络模型开始收敛时,就暴露一个degradation(退化)问题:当深度增加时,精确度趋于饱和,然后精度迅速减少
网络退化:越深的网络拟合数据能力应该越强但是是相反,原因不是过拟合而是网络优化困难,即模型难训练
这个精度下降问题并非过拟合导致的(这里精度下降是 训练和测试都下降)
过拟合:是训练精度很高,但是测试精度低
向一个深度合适的模型再添加几层会导致比较大的训练误差,我们的实验以及【11,42】这两个参考文献都能说明这个问题
表1展示一个典型的例子
表1:左侧是训练误差,右侧是测试误差:在20层以及56层的plain networks(普通的神经网络)
深的神经网络有更高的训练误差以及测试误差,这个相似的现象在ImageNet中也出现了(图4)
归一初始化,各层输入归一化,使得可以收敛的网络的深度提升为原来的十倍。虽然网络收敛了,但网络却开始退化
paragraph4
考虑浅的神经网络
考虑深的神经网络(浅的神经网络的copy+ 其他added的层),the added layers are identity mapping
,这个深的网络模型的训练 误差应该比浅的低,但实验的结果并非如此,所以当前这样的网络模型不可以
paragraph5
paragraph1
这个块的表达式如下
y
=
F
(
x
,
W
i
)
+
x
(1)
y = \mathcal{F}(x, {W_{i}} ) + x\tag{1}
y=F(x,Wi)+x(1)
paragraph
paragraph
paragraph
paragraph
paragraph
paragraph
普通网络:受VGG启发设计得到的
paragraph
残差网络:是在普通网络基础上引入shortcut connections 实现的
实线和虚线两种连结方式,实线的卷积和3x3x64 ,通道是64,采用的计算方式 y=F(x)+x
虚线的连接分别是3x3x64和3x3x128的卷积操作,它们的通道不同(64和128),计算方式y=F(x)+Wx,其中W是卷积核,用来调整x的通道数
计算方式:
维度相同:
y
=
F
(
x
,
W
i
)
+
x
y = \mathcal{F}(x, W_{i} )+x
y=F(x,Wi)+x
维度不同:
y
=
F
(
x
,
W
i
)
+
W
s
x
y = \mathcal{F}(x, W_{i} )+W_{s}x
y=F(x,Wi)+Wsx
参考:
ResNet网络详细解析(超详细哦)
paragraph
paragraph
普通网络
表二(下图)说明普通网络中34层比18层的误差更大
出现优化困难可能不是因为梯度消失问题,因为我们使用BN训练普通网络,它能够确保前向传播的信号具有非零方差。也使用BN验证了进行反向传播是,梯度也在正常的范围。所以不存在前向传播或者反向传播信号消失问题(梯度消失)
事实上34层的深度网络也可以做到比18层更具有竞争力(效果好),我们猜想深的普通网络可能以指数形式缓慢收敛
paragraph
残差网络
Identity vs. Projection Shortcuts
ResNet Identity & Projection Shortcuts的理解
bottleneck architectures
Deeper Bottleneck Architectures.
101-layer and 152-layer ResNets:
普通/参数网络架构如图三(上图)
启发点:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。