PyTorch数据归一化处理：transforms.Normalize及计算图像数据集的均值和方差

作者：笔触狂放9 | 2024-03-20 17:54:19

踩

transforms.normalize

PyTorch数据归一化处理：transforms.Normalize及计算图像数据集的均值和方差

1.数据归一化处理：transforms.Normalize
- 1.1 理解torchvision
- 1.2 数据标准化Normalize
2.计算图像数据集的均值和方差
参考资料

# Data
print('==> Preparing data..')
transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
])

transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=0)

testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)
testloader = torch.utils.data.DataLoader(testset, batch_size=100, shuffle=False, num_workers=0)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

1.数据归一化处理：transforms.Normalize

1.1 理解torchvision

torchvision.transforms：常用的图像预处理方法
torchvision.datasets：常用的数据集Dataset实现
torchvision.models：常用的CV（预训练）模型实现

torchvision.transforms:常用的数据预处理方法，提升泛化能力，包括：数据中心化、数据标准化、缩放、裁剪、旋转、翻转、填充、噪声添加、灰度变换、线性变换、仿射变换、亮度、饱和度及对比度变换等

数据增强又称为数据增广，数据扩增，它是对训练集进行变换，使训练集更丰富，从而让模型更具泛化能力。

1.2 数据标准化Normalize

功能：逐channel的对图像进行标准化（均值变为0，标准差变为1），可以加快模型的收敛
output = (input - mean) / std
mean：各通道的均值
std：各通道的标准差
inplace：是否原地操作

思考：

（1）据我所知，归一化就是要把图片3个通道中的数据整理到[-1, 1]区间。
x = (x - mean(x))/std(x)
只要输入数据集x确定了，mean(x)和std(x)也就是确定的数值了，为什么Normalize()函数还需要输入mean和std的数值呢？？？？

（2）RGB单个通道的值是[0, 255]，所以一个通道的均值应该在127附近才对。
如果Normalize()函数去计算 x = (x - mean)/std ，因为RGB是[0, 255]，算出来的x就不可能落在[-1, 1]区间了。

（3）在我看的了论文代码里面是这样的：
torchvision.transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
为什么就确定了这一组数值，这一组数值是怎么来的？为什么这三个通道的均值都是小于1的值呢？

理解：

（1）针对第一个问题，mean 和 std 肯定要在normalize（）之前自己先算好再传进去的，不然每次normalize（）就得把所有的图片都读取一遍算出mean和std

（2）针对第二个问题，有两种情况
（a )如果是imagenet数据集，那么ImageNet的数据在加载的时候就已经转换成了[0, 1].
（b) 应用了torchvision.transforms.ToTensor，其作用是将数据归一化到[0,1]（是将数据除以255），transforms.ToTensor（）会把HWC会变成C *H *W（拓展：格式为(h,w,c)，像素顺序为RGB）

（3）针对第三个问题：[0.485, 0.456, 0.406]这一组平均值是从imagenet训练集中抽样算出来的。

继续有疑问：

ToTensor 已经[0,1]为什么还要[0.485, 0.456, 0.406]？那么归一化后，为什么还要接一个Normalize()呢?Normalize()是对数据按通道进行标准化，即减去均值，再除以方差

解答：

别人的解答：数据如果分布在(0,1)之间，可能实际的bias，就是神经网络的输入b会比较大，而模型初始化时b=0的，这样会导致神经网络收敛比较慢，经过Normalize后，可以加快模型的收敛速度。因为对RGB图片而言，数据范围是[0-255]的，需要先经过ToTensor除以255归一化到[0,1]之后，再通过Normalize计算过后，将数据归一化到[-1,1]。

是否可以这样理解：[0，1]只是范围改变了，并没有改变分布，mean和std处理后可以让数据正态分布

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/275509