赞
踩
torch.nn模块包含torch为我们准备好的各种层,方便我们调用以构建网络。我们主要介绍卷积层、池化层、激活函数层、循环层、全连接层等的相关使用方法。
卷积可以看作是输入与卷积核之间的内积运算,是两个实值函数之间的一种数学运算。在卷积层中,我们通常使用卷积核将输入数据进行卷积运算从而得到输出作为特征映射,通过每一个卷积核我们可以得到一个特征映射。例如下图中的使用2*2卷积核进行步长为1的卷积操作:
在Pytorch中,针对卷积操作的对象和使用场景不同,我们有一维卷积、二维卷积、三维卷积、转置卷积(卷积的逆操作)等,我们都可以通过torch.nn模块调用它们,具体调用方法如下
层对应的类 | 功能 |
---|---|
torch.nn.Cov1d() | 对输入信号应用1D卷积 |
torch.nn.Cov2d() | 对输入信号应用2D卷积 |
torch.nn.Cov3d() | 对输入信号应用3D卷积 |
torch.nn.CovTranspose1d() | 对输入信号应用1D转置卷积 |
torch.nn.CovTranspose2d() | 对输入信号应用2D转置卷积 |
torch.nn.CovTranspose3d() | 对输入信号应用3D转置卷积 |
下面我们以2D卷积为例简单介绍卷积层的相关参数,代码示例如下:
- #在输入信号上应用1D卷积 torch.nn.Conv1d()
- #在输入信号上应用2D卷积 torch.nn.Conv2d()
- #在输入信号上应用3D卷积 torch.nn.Conv3d()
- #调用2D卷积
- torch.nn.Conv2d(in_channels,
- out_channels,
- kernel_size,
- stride=1,
- padding=0,
- dilation=1,
- groups=1,
- bias=True
- )
其中参数说明如下:
in_channels | 输入图像的通道数 |
out_channels | 经过卷积运算后,输出特征映射的数量 |
kernel_size | 卷积核大小 |
stride | 卷积步长(默认为1) |
padding | 在输入两边进行0填充的数量(默认为0) |
dilation | 卷积核元素之间的步幅(默认为1) |
groups | 从输入通道到输出通道之间的阻塞连接数 |
bias | 是否添加偏置(默认为True) |
torch.nn.Conv2d输入的张量为 ,输出的张量为 。
下面我们通过对一张图像来展示经过卷积后输出特征映射的结果。其中我们首先导入有关的包和模块,并使用PIL包来读取图像数据,使用matplotlib包来对图像和卷积结果进行可视化处理,代码如下:
首先,我们导入有关包和模块,之后使用Image.open()函数读取图像数据,并且使用.convert()方法,将其转化为灰度图像,并将其转化为numpy数组,最后使用plt.show()函数将图像可视化,具体代码如下:
- # 对一张图像使用二维卷积输出
- import torch
- import torch.nn as nn
- import numpy as np
- import matplotlib.pyplot as plt
- from PIL import Image
- #读取图像 转化为灰度图片 转化为numpy数组
- myim = Image.open(r"C:\Users\18298\Desktop\JupyterProjects\image\mixue.jpg")
- myimgray = np.array(myim.convert("L"),dtype=np.float32)
- #可视化图片
- plt.figure(figsize=(6,6))
- plt.imshow(myimgray,cmap=plt.cm.gray)
- plt.axis("off")
- plt.show()
原图以及得到图像如下:
通过上述操作,我们得到了一个原图的1280*1280的numpy数组,但是为了使用Pytorch进行卷积操作,我们需要将其转化为1*1*1280*1280的张量,代码如下:
- #将数组转化为张量
- print(myimgray.shape)
- imh,imw = myimgray.shape
- myimgray_t = torch.from_numpy(myimgray.reshape((1,1,imh,imw)))
- print(myimgray_t.shape)
结果如下,说明已经将图片信息转化成张量:
- (1280, 1280)
- torch.Size([1, 1, 1280, 1280])
卷积过程中需要将图像转化为四维以表示[batch,channel,h,w]。在本次对图像完成卷积操作后,我们将得到两个特征映射:第一个特征映射使用图像轮廓提取卷积核获取、第二个特征映射使用的卷积核为随机数,卷积核大小为5*5,对图像边缘不使用0进行填充(padding=0)。我们对张量使用如下的代码进行卷积运算,并对得到的两个特征映射进行可视化处理:
- #第一个特征映射使用图像轮廓提取卷积核获取,第二个特征映射使用卷积核为随机数,大小为5*5,对边缘不用0填充因此输出
- #特征映射的尺寸为1076*1076
- kersize = 5#定义边缘卷积核 维度处理为1*1*5*5
- ker = torch.ones(kersize,kersize,dtype=torch.float32)*-1
- ker[2,2] = 24
- ker = ker.reshape((1,1,kersize,kersize))
- #卷积操作
- conv2d = nn.Conv2d(1,2,(kersize,kersize),bias=False)#input:1 output:2
- #设置卷积使用的核 第一个核使用边缘检测核
- conv2d.weight.data[0] = ker
- #对灰度图像进行卷积操作
- imconv2dout = conv2d(myimgray_t)
- print("未压缩前尺寸:",imconv2dout.shape)
- #对卷积输出进行维度压缩
- imconv2dout_im = imconv2dout.data.squeeze()#去掉所有为1的维度
- print("卷积并压缩后尺寸:",imconv2dout_im.shape)
- ##可视化卷积后的图像
- plt.figure(figsize=(12,6))
- plt.subplot(1,2,1)
- plt.imshow(imconv2dout_im[0],cmap=plt.cm.gray)
- plt.axis("off")
- plt.subplot(1,2,2)
- plt.imshow(imconv2dout_im[1],cmap=plt.cm.gray)
- plt.axis("off")
- plt.show()
结果如下:
- 未压缩前尺寸: torch.Size([1, 2, 1276, 1276])
- 卷积并压缩后尺寸: torch.Size([2, 1276, 1276])
从结果来看,第一个特征映射通过使用边缘特征提取卷积核,很好的提取了图像的边缘信息;第二个特征映射通过使用随机卷积核,得到与图像相似的卷积结果。
池化操作的重要目的就是对卷积得到的特征进行进一步处理(降维),就是选取一定大小的区域,将该区域的像素使用一个代表元素表示(平均值池化 最大值池化)。这两种池化方式示例如下所示:
在Pytorch中,为我们提供了许多池化层的类,分别是:最大值池化、最大值池化的逆过程、平均值池化、自适应池化,并且均提供了一维、二维、三维的池化操作。具体的池化类和功能表如下:
层对应的类 | 功能 |
---|---|
torch.nn.MaxPool1d() | 对输入信号使用1D最大值池化 |
torch.nn.MaxPool2d() | 对输入信号使用2D最大值池化 |
torch.nn.MaxPool3d() | 对输入信号使用3D最大值池化 |
torch.nn.MaxUnPool1d() | 对输入信号使用1D最大值池化的部分逆运算 |
torch.nn.MaxUnPool2d() | 对输入信号使用2D最大值池化的部分逆运算 |
torch.nn.MaxUnPool3d() | 对输入信号使用3D最大值池化的部分逆运算 |
torch.nn.AvgPool1d() | 对输入信号使用1D平均值池化 |
torch.nn.AvgPool2d() | 对输入信号使用2D平均值池化 |
torch.nn.AvgPool3d() | 对输入信号使用3D平均值池化 |
torch.nn.AdaptiveMaxPool1d() | 对输入信号使用1D自适应最大值池化 |
torch.nn.AdaptiveMaxPool2d() | 对输入信号使用2D自适应最大值池化 |
torch.nn.AdaptiveMaxPool3d() | 对输入信号使用3D自适应最大值池化 |
torch.nn.AdaptivAvgPool1d() | 对输入信号使用1D自适应平均值池化 |
torch.nn.AdaptiveAvgPool1d() | 对输入信号使用1D自适应平均值池化 |
torch.nn.AdaptiveAvgPool1d() | 对输入信号使用1D自适应平均值池化 |
下面我们以2D最大值池化为例简单介绍池化层的相关参数,代码示例如下:
- #使用torch.nn.MaxPool2d()池化操作相关参数的应用
- torch.nn.MaxPool2d(kersize,
- stride=None,
- padding=0,
- dilation=1,
- return_indices=False,
- ceil_mode=False)
其中参数说明如下:
kernel_size | 池化窗口大小 |
stride | 池化窗口移动的步长(默认为kernel_size) |
padding | 在输入两边进行0填充的数量(默认为0) |
dilation | 一个控制窗口中元素步幅的参数 |
return_indices | True:返回输出最大值的索引 |
ceil_mode | True:计算输出信号大小时使用向上取整 False:计算输出信号大小时使用向下取整 |
torch.nn.Conv2d输入的张量为 ,输出的张量为 。
下面我们通过对上面图像卷积后的两个特征映射进行最大值池化、平均值池化、自适应池化来演示如何使用池化层,代码如下:
- #对卷积后的结果imconv2dout进行最大值池化
- maxpool2 = nn.MaxPool2d(2,stride=2)
- pool2_out = maxpool2(imconv2dout)
- pool2_out_im = pool2_out.squeeze()
- print("卷积后大小为:",imconv2dout.shape)
- print("池化后大小为:",pool2_out.shape)
- print("池化后压缩后大小为:",pool2_out_im.shape)
输出结果如下,可见大小缩小了一半:
- 卷积后大小为: torch.Size([1, 2, 1276, 1276])
- 池化后大小为: torch.Size([1, 2, 638, 638])
- 池化后压缩后大小为: torch.Size([2, 638, 638])
对结果进行可视化处理:
- #可视化最大值池化后的结果
- plt.figure(figsize=(12,6))
- plt.subplot(1,2,1)
- plt.imshow(pool2_out_im[0].data,cmap=plt.cm.gray)
- plt.axis("off")
- plt.subplot(1,2,2)
- plt.imshow(pool2_out_im[1].data,cmap=plt.cm.gray)
- plt.axis("off")
- plt.show()
- print("卷积后大小为:",imconv2dout.shape)
- print("池化后大小为:",pool2_out.shape)
- print("池化后压缩后大小为:",pool2_out_im.shape)
结果如下:
- 卷积后大小为: torch.Size([1, 2, 1276, 1276])
- 池化后大小为: torch.Size([1, 2, 638, 638])
- 池化后压缩后大小为: torch.Size([2, 638, 638])
- #对卷积后的结果进行平均值池化
- avgpool2 = nn.AvgPool2d(2,stride=2)
- pool2_out = avgpool2(imconv2dout)
- pool2_out_im = pool2_out.squeeze()
- print("pool2_out:",pool2_out.shape)
- print("pool2_out_im:",pool2_out_im.shape)
结果如下:
- pool2_out: torch.Size([1, 2, 638, 638])
- pool2_out_im: torch.Size([2, 638, 638])
对结果进行可视化处理:
- #可视化平均值池化后的结果
- plt.figure(figsize=(12,6))
- plt.subplot(1,2,1)
- plt.imshow(pool2_out_im[0].data,cmap=plt.cm.gray)
- plt.axis("off")
- plt.subplot(1,2,2)
- plt.imshow(pool2_out_im[1].data,cmap=plt.cm.gray)
- plt.axis("off")
- plt.show()
- print("卷积后大小为:",imconv2dout.shape)
- print("池化后大小为:",pool2_out.shape)
- print("池化后压缩后大小为:",pool2_out_im.shape)
结果如下:
- 卷积后大小为: torch.Size([1, 2, 1276, 1276])
- 池化后大小为: torch.Size([1, 2, 638, 638])
- 池化后压缩后大小为: torch.Size([2, 638, 638])
使用output_size指定输出特征映射的尺寸
- #对卷积后的结果进行自适应平均值池化
- #可使用output_size函数指定输出特征映射的尺寸
- AdaAvgpool2 = nn.AdaptiveAvgPool2d(output_size=(100,100))
- pool2_out = AdaAvgpool2(imconv2dout)
- pool2_out_im = pool2_out.squeeze()
- print("pool2_out:",pool2_out.shape)
- print("pool2_out_im:",pool2_out_im.shape)
结果如下(不难发现输出特征映射的尺寸为我们规定的100*100,由于尺寸变小因此更加模糊):
- pool2_out: torch.Size([1, 2, 100, 100])
- pool2_out_im: torch.Size([2, 100, 100])
对结果进行可视化处理:
- #可视化自适应平均值池化后的结果
- plt.figure(figsize=(12,6))
- plt.subplot(1,2,1)
- plt.imshow(pool2_out_im[0].data,cmap=plt.cm.gray)
- plt.axis("off")
- plt.subplot(1,2,2)
- plt.imshow(pool2_out_im[1].data,cmap=plt.cm.gray)
- plt.axis("off")
- plt.show()
- print("卷积后大小为:",imconv2dout.shape)
- print("池化后大小为:",pool2_out.shape)
- print("池化后压缩后大小为:",pool2_out_im.shape)
结果如下:
- 卷积后大小为: torch.Size([1, 2, 1276, 1276])
- 池化后大小为: torch.Size([1, 2, 100, 100])
- 池化后压缩后大小为: torch.Size([2, 100, 100])
在Pytorch中,常用的激活函数通常为S型(Sigmoid)激活函数、双曲正切(Tanh)激活函数、线性修正单元(ReLU)激活函数等,其类和功能如下:
层对应的类 | 功能 |
---|---|
torch.nn.Sigmoid | Sigmoid激活函数 |
torch.nn.Tanh | Tanh激活函数 |
torch.nn.ReLU | ReLU激活函数 |
torch.nn.Softplus | Softplus激活函数 |
下面我们简单介绍这几种激函数的功能与计算方式:
1. Sigmoid激活函数:
计算方式:
特点:输出位于(0,1)开区间内,当输入远离坐标原点时,该函数的梯度变得很小趋近于零,会影响参数的更新速度。
2. Tanh激活函数:
计算方式:
特点:输出位于(-1,1)开区间内,Tanh激活函数曲线和Sigmoid比较相近,在输入很大或很小时梯度很小,不利于权重更新,但由于取值输出以0对称,使用效果会比Sigmoid要好。
3. ReLU激活函数:
计算方式:
特点:只保留大于0的输出,其他输出设置为0,计算速度由于不存在梯度饱和的问题会比其他类型激活函数快很多。
4. Softplus激活函数:
计算方式:
特点:该函数对于任意位置都可以计算导数,并且尽可能保留了ReLu激活函数的优点(β默认为1)。
下面我们通过绘制以上几种激活函数的图像来更好的说明它们的特征,代码如下:
首先创建一个线性间距张量:
- #激活函数的图像
- x = torch.linspace(-6,6,100)#返回一个1维张量,包含在区间start和end上均匀间隔的step个点。
- print("x是一个线性间距张量",x.shape)
结果为:
x是一个线性间距张量 torch.Size([100])
然后分别定义各种激活函数:
Sigmoid激活函数:
- sigmoid = nn.Sigmoid()
- ysigmoid = sigmoid(x)
Tanh激活函数:
- tanh = nn.Tanh()
- ytanh = tanh(x)
ReLU激活函数:
- relu = nn.ReLU()
- yrelu = relu(x)
Softplus激活函数:
- softplus = nn.Softplus()
- ysoftplus = softplus(x)
最后对激活函数进行可视化处理:
- #可视化激活函数
- plt.figure(figsize=(13,3))
- plt.subplot(1,4,1)
- plt.plot(x.data.numpy(),ysigmoid.data.numpy(),"r-")
- plt.title("Sigmoid")
- plt.grid()#设置网格线
- plt.subplot(1,4,2)
- plt.plot(x.data.numpy(),ytanh.data.numpy(),"r-")
- plt.title("Tanh")
- plt.grid()#设置网格线
- plt.subplot(1,4,3)
- plt.plot(x.data.numpy(),yrelu.data.numpy(),"r-")
- plt.title("ReLU")
- plt.grid()#设置网格线
- plt.subplot(1,4,4)
- plt.plot(x.data.numpy(),ysoftplus.data.numpy(),"r-")
- plt.title("Softplus")
- plt.grid()#设置网格线
结果如下:
在Pytorch中,提供了三种循环层的实现,如下所示:
层对应的类 | 功能 |
torch.nn.RNN() | 多层RNN单元 |
torch.nn.LSTM() | 多层长短期记忆LSTM单元 |
torch.nn.GRU() | 多层门限循环GRU单元 |
torch.nn.RNNCell() | 一个RNN循环层单元 |
torch.nn.LSTMCell() | 一个长短期记忆LSTM单元 |
torch.nn.GRUCell() | 一个门限循环GRU单元 |
RNN的输入为input和h_0,其中input是一个形状为(seq_len,batch,input_size)的张量。h-0则是一个形状为(num_layers*num_directions,batch,hidden_size)保存着初始隐状态的张量。如果不提供就默认为。如果是双向RNN,,num_direction等于2,否则等于1。
RNN的输出为output和h_n,其中:
output是一个形状为(seq_len,batch,hidden_size*num_directions)的张量,保存着RNN最后一层的输出特征。如果输入是被填充过的序列,那么输出也是被填充的序列。
h_n是一个形状为(num_layers*num_directions,batch,hidden_size)的张量,保存着最后一个时刻的隐状态。
全连接层是一个由多个神经元组成的层,其所有的输出和该层的所有输入都有连接,即每个输入都会影响所有神经元的输出。
下面我们以线性全连接层为例简单介绍全连接层的相关参数,代码示例如下:
- torch.nn.Linear(in_features,out_features,bias=True)
- #输入为(N,in_feartures)张量(in_features=收入样本的特征数量)
- #输出为(N,out_feartures)张量(out_features=输出样本的特征数量)
其中参数说明如下:
in_features:每个输入样本的特征数量
out_features:每个输出样本的特征数量
bias:True代表学习偏置;False代表不学习偏置
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。