赞
踩
随着数据量的不断增加和计算能力的提高,深层神经网络在计算机视觉、自然语言处理等领域展现出了非常强大的能力。然而,在训练深层神经网络时,往往会遇到"梯度消失/梯度爆炸"的问题,导致权重无法被很好地更新,模型性能无法得到进一步提升。
为了解决深层网络的优化困难,2015年,微软研究院的四位科学家何凯明(Kaiming He)、张祥雷(Xiangyu Zhang)、 申青燊(Shaoqing Ren)和孙剑(Jian Sun)在他们的论文《Deep Residual Learning for Image Recognition》中提出了残差网络(Residual Network,简称ResNet)。ResNet通过构建残差路径(Residual Path),允许梯度在这些路径上更好地传播,从而缓解梯度消失/梯度爆炸问题,实现了更深层的网络训练。
传统的卷积神经网络将输入直接传递给下一层。ResNet则将一部分输入通过"跨层连接"直接映射至后面的层,形成了"shortcut connection"或称作"skip connection"。该连接形成了"Residual Block"(残差模块),其本质是对输入进行恒等映射,即 H(x) = x
,这样底层输入就可以无阻碍地传递给顶层。
ResNet的关键思想是学习"残差映射(Residual Mapping)",即 F(x) = H(x) - x
。由于恒等映射很容易学习,ResNet只需从输入中学习非常小的扰动 F(x)
,使网络输出 H(x) = F(x) + x
与期望输出足够接近。这样做在一定程度上简化了学习目标和难度。
残差网络成功地解决了深层网络训练中的梯度消失/爆炸问题,推动了深层网络在计算机视觉领域的发展。ResNet在2015年的ImageNet分类任务中取得了巨大的成功,并迅速在学术界和工业界引发热潮,成为众多视觉任务的基线模型。
一个常规的卷积神经网络层可以表示为:
y = F ( x , { W i } ) + x y = F(x, \{W_i\}) + x y=F(x,{ Wi})+x
其中 x x x 和 y y y 分别为该层的输入和输出, W i {W_i} Wi是该层的可训练权重集合, F ( ⋅ ) F(\cdot) F(⋅) 表示该层对输入的各种变换(卷积、归一化、激活等操作)。
ResNet的残差单元可以表示为:
y = F ( x , { W i } ) + W s h o r t c u t ( x ) y = F(x, \{W_i\}) + \text{W}_{shortcut}(x) y=F(x,{ Wi})+W<
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。