当前位置:   article > 正文

阿里云天池-街景字符编码识别-基于ResNet-18_阿里天池图像分类

阿里天池图像分类

一、任务介绍 

赛题以计算机视觉中字符识别为背景,要求选手预测真实场景下的字符识别,这是一个典型的字符识别问题。通过这道赛题可以引导大家走入计算机视觉的世界,主要针对竞赛选手上手视觉赛题,提高对数据建模能力。

1.1数据来源

零基础入门CV - 街景字符编码识别_学习赛_天池大赛-阿里云天池的赛制 (aliyun.com)

赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。

所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。

FieldDescription
top左上角坐标Y
height字符高度
left左上角坐标X
width字符宽度
label字符编码

1.2评测标准

评价标准为准确率,选手提交结果与实际图片的编码进行对比,以编码整体识别准确率为评价指标,结果越大越好,具体计算公式如下:

                                score=编码识别正确数量/测试集图片数量

1.3思路 

赛题本质是分类问题,需要对图片的字符进行识别。但赛题给定的数据图片中不同图片中包含的字符数量不等。可以将赛题抽象为一个定长字符识别问题,在赛题数据集中大部分图像中字符个数为2-4个,最多的字符 个数为6个。因此可以对于所有的图像都抽象为6个字符的识别问题,字符23填充为23XXXX,字符231填充为231XXX。 


二、算法原理

使用resnet18网络结构作为模型,详细关于ResNet-18模型见---------------------->

https://blog.csdn.net/m0_64799972/article/details/132753608?spm=1001.2014.3001.5502

三、实现过程 

3.1下载数据集

首先得报名,报了名才可以下载数据集。 在这里下载

然后执行此代码 

  1. import pandas as pd
  2. import os
  3. import requests
  4. import zipfile
  5. import shutil
  6. links = pd.read_csv('./content/mchar_data_list_0515.csv')
  7. dir_name = 'NDataset'
  8. mypath = './content/'
  9. if not os.path.exists(mypath + dir_name):
  10. os.mkdir(mypath + dir_name)
  11. for i,link in enumerate(links['link']):
  12. file_name = links['file'][i]
  13. print(file_name, '\t', link)
  14. file_name = mypath + dir_name + '/' + file_name
  15. if not os.path.exists(file_name):
  16. response = requests.get(link, stream=True)
  17. with open( file_name, 'wb') as f:
  18. for chunk in response.iter_content(chunk_size=1024):
  19. if chunk:
  20. f.write(chunk)
  21. zip_list = ['mchar_train', 'mchar_test_a', 'mchar_val']
  22. for little_zip in zip_list: # 卖萌可耻
  23. if not os.path.exists(mypath + dir_name + '/' + little_zip):
  24. zip_file = zipfile.ZipFile(mypath + dir_name + '/' + little_zip + '.zip', 'r')
  25. zip_file.extractall(path = mypath + dir_name )
  26. if os.path.exists(mypath + dir_name + '/' + '__MACOSX'):
  27. shutil.rmtree(mypath + dir_name + '/' + '__MACOSX')

 运行结果如下:


3.2数据处理 

在街道字符识别任务中。在赛题中我们需要对的图像进行字符识别,因此需要我们完成的数据的读取操作,同时也需要完成数据扩增(Data Augmentation)操作。

在深度学习中数据扩增方法非常重要,数据扩增可以增加训练集的样本,同时也可以有效缓解模型过拟合的情况,也可以给模型带来的更强的泛化能力。

数据扩增方法有很多:从颜色空间、尺度空间到样本空间,同时根据不同任务数据扩增都有相应的区别。对于图像分类,数据扩增一般不会改变标签;对于物体检测,数据扩增会改变物体坐标位置;对于图像分割,数据扩增会改变像素标签。 

在常见的数据扩增方法中,一般会从图像颜色、尺寸、形态、空间和像素等角度进行变换。当然不同的数据扩增方法可以自由进行组合,得到更加丰富的数据扩增方法。

以torchvision为例,常见的数据扩增方法包括:

  • transforms.CenterCrop 对图片中心进行裁剪
  • transforms.ColorJitter 对图像颜色的对比度、饱和度和零度进行变换
  • transforms.FiveCrop 对图像四个角和中心进行裁剪得到五分图像
  • transforms.Grayscale 对图像进行灰度变换
  • transforms.Pad 使用固定值进行像素填充
  • transforms.RandomAffine 随机仿射变换
  • transforms.RandomCrop 随机区域裁剪
  • transforms.RandomHorizontalFlip 随机水平翻转
  • transforms.RandomRotation 随机旋转
  • transforms.RandomVerticalFlip 随机垂直翻转

 在本次赛题中,赛题任务是需要对图像中的字符进行识别,因此对于字符图片并不能进行翻转操作。比如字符6经过水平翻转就变成了字符9,会改变字符原本的含义。

下图代码是本文采用的数据增强方法。


3.3实验代码

  1. # %pylab inline
  2. import matplotlib.pyplot as plt
  3. import numpy as np
  4. import os, sys, glob, shutil, json
  5. #os用于操作文件和目录
  6. #sys提供了与python解释器相关的功能
  7. #glob用于文件通配符匹配
  8. #shutil用于文件操作
  9. #json用于处理JSON数据
  10. from torch.optim.lr_scheduler import StepLR #PyTorch中的学习率调度器,用于动态地调整模型的学习率。
  11. os.environ["CUDA_VISIBLE_DEVICES"] = '0'
  12. import cv2
  13. from PIL import Image
  14. from tqdm import tqdm, tqdm_notebook #用于创建进度条以监视代码中循环的进展。
  15. import torch
  16. torch.manual_seed(0) #通过设置随机种子,可以实现重复性,便于调试和验证模型的稳定性。
  17. torch.backends.cudnn.deterministic = False
  18. torch.backends.cudnn.benchmark = True
  19. import torchvision.models as models
  20. import torchvision.transforms as transforms #用于图像预处理和数据增强的工具。例如,可以使用这些转换来对图像进行裁剪、缩放、标准化等操作。
  21. import torchvision.datasets as datasets #用于加载常见图像数据集的工具
  22. import torch.nn as nn
  23. import torch.nn.functional as F
  24. import torch.optim as optim
  25. from torch.autograd import Variable
  26. from torch.utils.data.dataset import Dataset
  27. class SVHNDataset(Dataset):
  28. def __init__(self, img_path, img_label, transform=None):
  29. self.img_path = img_path
  30. self.img_label = img_label
  31. if transform is not None:
  32. self.transform = transform
  33. else:
  34. self.transform = None
  35. def __getitem__(self, index):
  36. img = Image.open(self.img_path[index]).convert('RGB')
  37. if self.transform is not None:
  38. img = self.transform(img)
  39. lbl = np.array(self.img_label[index], dtype=np.int)
  40. lbl = list(lbl) + (5 - len(lbl)) * [10]
  41. return img, torch.from_numpy(np.array(lbl[:5]))
  42. def __len__(self):
  43. return len(self.img_path)
  44. if __name__ == '__main__':
  45. train_path = glob.glob('./content/NDataset/mchar_train/*.png')
  46. train_path.sort()
  47. train_json = json.load(open('./content/NDataset/mchar_train.json'))
  48. train_label = [train_json[x]['label'] for x in train_json]
  49. train_loader = torch.utils.data.DataLoader(
  50. SVHNDataset(train_path, train_label,
  51. transforms.Compose([
  52. transforms.Resize((64, 128)),
  53. transforms.RandomCrop((60, 120)), #随即裁剪,有助于模型学习不同部分的特征,同时也可以增加数据的多样性。
  54. transforms.ColorJitter(0.3, 0.3, 0.2),#颜色抖动操作。这个操作会随机调整图像的亮度、对比度和饱和度,以增加数据的变化性。
  55. transforms.RandomRotation(10),#随机旋转操作。它会随机旋转图像不超过10度,用于增加数据的多样性和鲁棒性。
  56. transforms.ToTensor(),#将图像数据转换为张量(Tensor)格式。神经网络模型通常需要输入张量数据。
  57. transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])#标准化,以便更好地适应模型的训练。
  58. ])),
  59. batch_size=40,
  60. shuffle=True,
  61. num_workers=10,
  62. )
  63. val_path = glob.glob('./content/NDataset/mchar_val/*.png')
  64. val_path.sort()
  65. val_json = json.load(open('./content/NDataset/mchar_val.json'))
  66. val_label = [val_json[x]['label'] for x in val_json]
  67. val_loader = torch.utils.data.DataLoader(
  68. SVHNDataset(val_path, val_label,
  69. transforms.Compose([
  70. transforms.Resize((60, 120)),
  71. # transforms.ColorJitter(0.3, 0.3, 0.2),
  72. # transforms.RandomRotation(5),
  73. transforms.ToTensor(),
  74. transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
  75. ])),
  76. batch_size=40,
  77. shuffle=False,
  78. num_workers=10,
  79. )
  80. class SVHN_Model1(nn.Module):
  81. def __init__(self):
  82. super(SVHN_Model1, self).__init__()
  83. model_conv = models.resnet18(pretrained=True) #会下载并加载在 ImageNet 数据集上预训练过的 ResNet-18 模型权重
  84. model_conv.avgpool = nn.AdaptiveAvgPool2d(1) #将平均池化替换为自适应平均池化层,为了在不同输入尺寸的图像上使用这个模型
  85. model_conv = nn.Sequential(*list(model_conv.children())[:-1]) #去除最后一层分类器,只有卷积层和池化层的ResNet-18
  86. self.cnn = model_conv
  87. #五个全连接层,每一个用于预测一个数字的类别
  88. self.fc1 = nn.Linear(512, 11)
  89. self.fc2 = nn.Linear(512, 11)
  90. self.fc3 = nn.Linear(512, 11)
  91. self.fc4 = nn.Linear(512, 11)
  92. self.fc5 = nn.Linear(512, 11)
  93. def forward(self, img):
  94. feat = self.cnn(img) #包含了提取的特征
  95. #print(feat.shape)
  96. feat = feat.view(feat.shape[0], -1) #展平
  97. c1 = self.fc1(feat)
  98. c2 = self.fc2(feat)
  99. c3 = self.fc3(feat)
  100. c4 = self.fc4(feat)
  101. c5 = self.fc5(feat)
  102. return c1, c2, c3, c4, c5
  103. def train(train_loader, model, criterion, optimizer, epoch):
  104. # 切换模型为训练模式
  105. model.train()
  106. train_loss = []
  107. for i, (input, target) in enumerate(train_loader): #每个批次大小是40
  108. if use_cuda:
  109. input = input.cuda()
  110. target = target.cuda()
  111. target = target.long()
  112. c0, c1, c2, c3, c4 = model(input)
  113. loss = criterion(c0, target[:, 0]) + \
  114. criterion(c1, target[:, 1]) + \
  115. criterion(c2, target[:, 2]) + \
  116. criterion(c3, target[:, 3]) + \
  117. criterion(c4, target[:, 4])
  118. # loss /= 6
  119. optimizer.zero_grad() #将优化器的梯度缓冲区清零,以准备计算新的梯度。
  120. loss.backward() #进行反向传播,计算梯度
  121. optimizer.step() #更新参数,通过梯度下降来最小化损失函数
  122. train_loss.append(loss.item()) #将每一个批次的损失加入一个列表中
  123. return np.mean(train_loss) #返回每个批次的损失平均值
  124. def validate(val_loader, model, criterion):
  125. # 切换模型为预测模型
  126. model.eval()
  127. val_loss = []
  128. # 不记录模型梯度信息
  129. with torch.no_grad():
  130. for i, (input, target) in enumerate(val_loader):
  131. if use_cuda:
  132. input = input.cuda()
  133. target = target.cuda()
  134. c0, c1, c2, c3, c4 = model(input)
  135. # 注意:将 target 转换为整数类型的张量
  136. target = target.long()
  137. loss = criterion(c0, target[:, 0]) + \
  138. criterion(c1, target[:, 1]) + \
  139. criterion(c2, target[:, 2]) + \
  140. criterion(c3, target[:, 3]) + \
  141. criterion(c4, target[:, 4])
  142. # loss /= 6
  143. val_loss.append(loss.item())
  144. return np.mean(val_loss)
  145. def predict(test_loader, model, tta=10):
  146. model.eval()
  147. test_pred_tta = None
  148. #TTA是一种在测试过程中对输入数据进行多次变换或扰动,并对每个变换后的输入进行预测,然后取多次预测的平均值以提高模型性能的技术。
  149. # TTA 次数
  150. for _ in range(tta):
  151. test_pred = [] #存储每个测试样本的预测结果
  152. with torch.no_grad():
  153. for i, (input, target) in enumerate(test_loader):
  154. if use_cuda:
  155. input = input.cuda()
  156. c0, c1, c2, c3, c4 = model(input)
  157. if use_cuda:
  158. output = np.concatenate([
  159. c0.data.cpu().numpy(),
  160. c1.data.cpu().numpy(),
  161. c2.data.cpu().numpy(),
  162. c3.data.cpu().numpy(),
  163. c4.data.cpu().numpy()], axis=1)
  164. else:
  165. output = np.concatenate([
  166. c0.data.numpy(),
  167. c1.data.numpy(),
  168. c2.data.numpy(),
  169. c3.data.numpy(),
  170. c4.data.numpy()], axis=1)
  171. test_pred.append(output)
  172. test_pred = np.vstack(test_pred)
  173. if test_pred_tta is None:
  174. test_pred_tta = test_pred
  175. else:
  176. test_pred_tta += test_pred
  177. return test_pred_tta
  178. if __name__ == '__main__':
  179. # 定义初始学习率
  180. initial_lr=0.001
  181. # 定义初始学习率
  182. model = SVHN_Model1()
  183. criterion = nn.CrossEntropyLoss() #交叉熵通常用于分类问题,适用于多类别分类任务。
  184. optimizer = torch.optim.Adam(model.parameters(), 0.001)
  185. #optimizer = torch.optim.RMSprop(model.parameters(), lr=0.001, alpha=0.9)
  186. # 创建学习率调度器
  187. scheduler=StepLR(optimizer,step_size=5,gamma=0.5)
  188. best_loss = 1000.0
  189. # 是否使用GPU
  190. use_cuda = True
  191. if use_cuda:
  192. model = model.cuda()
  193. for epoch in range(10):
  194. train_loss = train(train_loader, model, criterion, optimizer, epoch)
  195. val_loss = validate(val_loader, model, criterion)
  196. # 在每个 epoch 结束时更新学习率
  197. scheduler.step()
  198. val_label = [''.join(map(str, x)) for x in val_loader.dataset.img_label]
  199. val_predict_label = predict(val_loader, model, 1)
  200. val_predict_label = np.vstack([
  201. val_predict_label[:, :11].argmax(1),
  202. val_predict_label[:, 11:22].argmax(1),
  203. val_predict_label[:, 22:33].argmax(1),
  204. val_predict_label[:, 33:44].argmax(1),
  205. val_predict_label[:, 44:55].argmax(1),
  206. ]).T
  207. val_label_pred = []
  208. for x in val_predict_label:
  209. val_label_pred.append(''.join(map(str, x[x != 10])))
  210. val_char_acc = np.mean(np.array(val_label_pred) == np.array(val_label))
  211. print('Epoch: {0}, Train loss: {1} \t Val loss: {2}'.format(epoch, train_loss, val_loss))
  212. print('Val Acc', val_char_acc)
  213. # 记录下验证集精度
  214. if val_loss < best_loss:
  215. best_loss = val_loss
  216. # print('Find better model in Epoch {0}, saving model.'.format(epoch))
  217. torch.save(model.state_dict(), './model.pt')
  218. test_path = glob.glob('./content/NDataset/mchar_test_a/*.png')
  219. test_path.sort()
  220. #test_json = json.load(open('../input/test_a.json'))
  221. test_label = [[1]] * len(test_path)
  222. #print(len(test_path), len(test_label))
  223. test_loader = torch.utils.data.DataLoader(
  224. SVHNDataset(test_path, test_label,
  225. transforms.Compose([
  226. transforms.Resize((70, 140)),
  227. # transforms.RandomCrop((60, 120)),
  228. # transforms.ColorJitter(0.3, 0.3, 0.2),
  229. # transforms.RandomRotation(5),
  230. transforms.ToTensor(),
  231. transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
  232. ])),
  233. batch_size=40,
  234. shuffle=False,
  235. num_workers=10,
  236. )
  237. # 加载保存的最优模型
  238. model.load_state_dict(torch.load('model.pt'))
  239. test_predict_label = predict(test_loader, model, 1)
  240. #print(test_predict_label.shape)
  241. test_label = [''.join(map(str, x)) for x in test_loader.dataset.img_label]
  242. test_predict_label = np.vstack([
  243. test_predict_label[:, :11].argmax(1),
  244. test_predict_label[:, 11:22].argmax(1),
  245. test_predict_label[:, 22:33].argmax(1),
  246. test_predict_label[:, 33:44].argmax(1),
  247. test_predict_label[:, 44:55].argmax(1),
  248. ]).T
  249. test_label_pred = []
  250. for x in test_predict_label:
  251. test_label_pred.append(''.join(map(str, x[x != 10])))
  252. import pandas as pd
  253. df_submit = pd.read_csv('content/NDataset/mchar_sample_submit_A.csv')
  254. df_submit['file_code'] = test_label_pred
  255. df_submit.to_csv('content/NDataset/submit.csv', index=None)

 三、实验结果及分析

 

优化:

1.使用Adam优化器进行优化。

optimizer = torch.optim.Adam(model.parameters(), 0.001)

2.创建学习率调度器。

scheduler=StepLR(optimizer,step_size=5,gamma=0.5)

分析:

除了选择好的模型之外,我们可以选择从数据增强、学习率选择、正则化技术、注意力机制、标签平滑等策略技术来增加检测准确率。


 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/413927?site
推荐阅读
相关标签
  

闽ICP备14008679号