赞
踩
论文:Designing Network Design Strategies Through Gradient Path Analysis
代码:暂无
出处:暂无
现有网络结构设计的不同方向:
总结上述内容可以得到下面的结论:
本文作者的思考:
本文作者的出发点:
本文的做法:为 layer-level、stage-level、network-level 设计了梯度路径:
在本文中,作者将网络设计策略分为两种,如图 2 所示:
1、data path design strategy
优势:
劣势:
2、gradient path design strategy
优势:
PRN 是本文作者团队在 2019 年提出的,属于 layer-level 的设计策略
在 PRN 的设计中,主要是围绕着如何最大化梯度的组合来更新每层的权重
下面两个因素会主要影响梯度的组合:
以 ResNet 为例来分析 Masked residual layer:
以 ResNet 来分析 Asymmetric(非对称) residual layer:
梯度结合(gradient combination)的一些分析:
一般研究中通常使用『最短梯度路径』和『融合特征的数量』来衡量模型的学习效率和网络结构的能力,[39] 在任务,这些度量方式和 accuracy 及 参数 没有很强的关系,如表 1 所示。
作者认为梯度传播和梯度结合是被用来更新参数的,和网络相关性更大,所以下面会进行「梯度结合」的相关分析。
梯度结合包括:gradient timestamp 和 gradient source
1、gradient timestamp
如图 7,展示了四种不同的网络结构的 gradient timestamp
2、gradient source
如图 8 所示,展示了 3 种不同网络在第一个 gradient timestamp 处的 gradient source:
CSPNet 也是本文团队在 2019 年提出的,可以看做 stage-level 梯度网络
CSPNet 也是基于最大化梯度组合来实现的
CSPNet 和 PRN 的不同:
所以,在 CSPNet 设计的时候,是从 layer-level 扩展到了 stage-level
CSPNet 的结构如下:
1、Cross stage partial operation
当每个 channel 都有不同的梯度传播路径的时候,可以达到 the source of gradient 的最大化
当每个 channel 都不同的计算深度的时候,梯度时间戳的数量可以最大化
所以,可以通过上面的两个理论来设计结构,最大化 gradient source 和 gradient timestamp
划分 channel 可以提高 gradient source,让子网络和不同 layer 的不同 channel 结合可以提高 gradient timestamps 的数量
结构如图 4 所示:
2、Gradient flow truncate operation
作者分析了 CSPNet 的梯度流传播
由于 block 中用了很多残差连接,特征流和残差流的梯度有很多重复的,所以作者在 block 和残差连接的末尾都插入了 transition layer,来截断一些梯度。
图 5 展示了 3 种不同的结合方式:
CSPNet 设计之初是为了加强模型在线学习的能力,并且加速推理。
ELAN 代码在 2022 年 7 月开源,在 layer-level 上设计了 gradient path designed network。
ELAN 的主要目标是为了解决 deep model scaling 时难以收敛的问题
ELAN 是由 VoVNet 和 CSPNet 结合而来的,且其整个网络的梯度长度的优化是基于 Stack in computational block 结构的
Stack in computational block:
在做模型缩放时,如果网络达到了一定的深度,再叠加深度时,网络的效果可能会不升反降
举个例子:
分析:
为了进一步分析,作者基于 YOLOR-CSP 进行了一些实验,并且发现:
Stack in computational block 如图 6 所示:
这里介绍一下 VoVNet:
E-LAN 结构如图 6c 所示:主要为了避免过多的使用 transition layer(会提升梯度最短路径,影响网络加深)
我们已知,在分析梯度路径时,不能只看整个网络的最短梯度路径和最长梯度路径,而且需要更详细的梯度路径分析。
stop gradient:
首先,探索一下 ResNet 的最短路径长度。和 PlainNet,ResNet 的每个 block 都有一部分梯度是会经过 block 传递的
所以,作者会分别在 block 和残差连接上进行 stop gradient 操作,如图 9 所示:
Gradient path planning:
作者重新设计了 VoVNet 的 transition layer:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。