赞
踩
残差网络的核心思想是:每个附加层都应该更容易地包含原始函数作为其元素之一。 于是,残差块(residual blocks)便诞生了,这个设计对如何建立深层神经网络产生了深远的影响。
即随着网络层数的增加,网络的性能反而不再提升,甚至下降。残差块通过引入“残差学习”(residual learning)来缓解这一问题,使得网络能够更容易地学习到深层特征。
残差块的输入不仅传递到卷积层等操作中,还通过一个跳跃连接(也称为快捷连接)直接传递到后面的层。这个跳跃连接可以是恒等连接(identity connection),也可以是经过一些卷积层或其他操作的连接。
卷积层的输出与输入通过跳跃连接进行逐元素相加(element-wise addition)。这样做的目的是将输入中的信息保留下来,并与学习到的残差特征相结合。
残差块的原理可以通过以下公式表示:
输出=激活函数(卷积层1(输入))+激活函数(卷积层2(输入))
案例:
import torch import torch.nn as nn class ResidualBlock(nn.Module): def __init__(self, in_channels, out_channels, stride=1, downsample=None): super(ResidualBlock, self).__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False) self.bn1 = nn.BatchNorm2d(out_channels) self.relu = nn.ReLU(inplace=True) self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False) self.bn2 = nn.BatchNorm2d(out_channels) self.downsample = downsample def forward(self, x): residual = x out = self.conv1(x) out = self.bn1(out) out = self.relu(out) out = self.conv2(out) out = self.bn2(out) if self.downsample: residual = self.downsample(x) out += residual out = self.relu(out) return out # 假设我们有一个输入张量,大小为(1, 64, 56, 56) # 这里假设输入是一个来自前面层的特征图 input_tensor = torch.randn(1, 64, 56, 56) # 创建一个残差块实例,其中输入和输出通道数都是64 residual_block = ResidualBlock(in_channels=64, out_channels=64) # 通过残差块传递输入,查看输出 output = residual_block(input_tensor) print(output.shape) # 应该输出: torch.Size([1, 64, 56, 56])
import torch import torch.nn as nn from torch.nn import functional as F class Residual(nn.Module): ''' 这是一个残差块的实现,它是ResNet的基本构建单元。 input_channels:输入特征图的通道数。 num_channels:残差块内部使用的通道数。 use_1x1conv:是否使用1x1卷积来调整输入特征图的通道数。 strides:卷积层的步长,用于在第一个残差块中改变特征图的尺寸。 ''' def __init__(self, input_channels, num_channels, use_1x1conv=False, strides=1): super().__init__() # self.conv1 和 self.conv2:两个3x3的卷积层,用于提取特征和学习残差。 self.conv1 = nn.Conv2d(input_channels, num_channels, kernel_size=3, padding=1, stride=strides) self.conv2 = nn.Conv2d(num_channels, num_channels, kernel_size=3, padding=1) if use_1x1conv: # self.conv3:一个可选的1x1卷积层,用于在第一个残差块中调整通道数和尺寸。 self.conv3 = nn.Conv2d(input_channels, num_channels, kernel_size=1, stride=strides) else: self.conv3 = None # self.bn1 和 self.bn2:两个批归一化层,用于规范化卷积层的输出。 self.bn1 = nn.BatchNorm2d(num_channels) self.bn2 = nn.BatchNorm2d(num_channels) # forward 方法定义了残差块的前向传播过程,包括卷积、批归一化、激活函数和跳跃连接的加和。 def forward(self, X): Y = F.relu(self.bn1(self.conv1(X))) Y = self.bn2(self.conv2(Y)) if self.conv3: X = self.conv3(X) Y += X return F.relu(Y) def resnet_block(input_channels, num_channels, num_residuals, first_block=False): ''' 这个函数用于创建多个残差块的序列。 input_channels 和 num_channels:输入和输出特征图的通道数。 num_residuals:残差块的数量。 first_block:是否为第一个残差块,如果是,将使用1x1卷积和步长为2的卷积来改变特征图的尺寸。 ''' blk = [] for i in range(num_residuals): if i == 0 and not first_block: blk.append(Residual(input_channels, num_channels, use_1x1conv=True, strides=2)) else: blk.append(Residual(num_channels, num_channels)) return blk # 构建 ResNet 网络 b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3), nn.BatchNorm2d(64), nn.ReLU(), nn.MaxPool2d(kernel_size=3, stride=2, padding=1)) b2 = nn.Sequential(*resnet_block(64, 64, 2, first_block=True)) b3 = nn.Sequential(*resnet_block(64, 128, 2)) b4 = nn.Sequential(*resnet_block(128, 256, 2)) b5 = nn.Sequential(*resnet_block(256, 512, 2)) net = nn.Sequential(b1, b2, b3, b4, b5, nn.AdaptiveAvgPool2d((1,1)), nn.Flatten(), nn.Linear(512, 10)) print(net)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。