当前位置:   article > 正文

【机器学习/数据预处理】从公开的数据集中筛选出自己需要的部分(以MNIST为例)_将mnist的一部分划分出来

将mnist的一部分划分出来

想要入门机器学习,比较关键的一点就是在算法之前的数据预处理环节。从github上clone一下代码再照着README跑了下demo离入门还是有点距离的。

本篇文章旨在介绍入门级的数据预处理。像是MNIST之类的公开数据集都是打包好了的,不易读取其中的部分数据。下面我们就通过写一点python的代码实现数据集的筛选。

1.代码运行环境

python 3.7.6

pytorch+cuda 11.6

还有一些基础包,如numpy之类的就不再赘述,环境仅供参考,本文的程序没有什么的版本要求。

2.使用LeNet进行MNIST数据集的分类

首先我们给出一个基本的程序代码,用于读取MNIST数据集并使用LeNet进行分类.

  1. import torch
  2. from torch import nn
  3. from torch.nn import init
  4. import numpy as np
  5. import sys
  6. import torchvision
  7. import torchvision.transforms as transforms
  8. import time
  9. from torch.utils.data import Dataset
  10. from torch.utils import data
  11. #使用pytorch官方方法读取MNIST全部数据并进行数据划分
  12. def load_data_fashion_mnist(mnist_train, mnist_test, batch_size):
  13. if sys.platform.startswith('win'):
  14. num_workers = 0
  15. else:
  16. num_workers = 4
  17. train_iter = data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
  18. test_iter = data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)
  19. return train_iter, test_iter
  20. #Lenet定义
  21. class LeNet(nn.Module):
  22. def __init__(self):
  23. super(LeNet, self).__init__()
  24. self.conv = nn.Sequential(
  25. nn.Conv2d(1, 6, 5), # in_channels, out_channels, kernel_size
  26. nn.Sigmoid(),
  27. nn.MaxPool2d(2, 2), # kernel_size, stride
  28. nn.Conv2d(6, 16, 5),
  29. nn.Sigmoid(),
  30. nn.MaxPool2d(2, 2)
  31. )
  32. self.fc = nn.Sequential(
  33. nn.Linear(16*4*4, 120),
  34. nn.Sigmoid(),
  35. nn.Linear(120, 84),
  36. nn.Sigmoid(),
  37. nn.Linear(84, 10)
  38. )
  39. def forward(self, img):
  40. feature = self.conv(img)
  41. output = self.fc(feature.view(img.shape[0], -1))
  42. return output
  43. #用于验证的函数
  44. def evaluate_accuracy(data_iter, net, device=None):
  45. if device is None and isinstance(net, torch.nn.Module):
  46. # 如果没指定device就使用net的device
  47. device = list(net.parameters())[0].device
  48. acc_sum, n = 0.0, 0
  49. with torch.no_grad():
  50. for X, y in data_iter:
  51. net.eval() # 评估模式, 这会关闭dropout
  52. acc_sum += (net(X.to(device)).argmax(dim=1) == y.to(device)).float().sum().cpu().item()
  53. net.train() # 改回训练模式
  54. n += y.shape[0]
  55. return acc_sum / n
  56. #训练
  57. def train(net, train_iter, test_iter, batch_size, optimizer, device, num_epochs):
  58. net = net.to(device)
  59. print("training on ", device)
  60. loss = torch.nn.CrossEntropyLoss()
  61. for epoch in range(num_epochs):
  62. train_l_sum, train_acc_sum, n, batch_count, start = 0.0, 0.0, 0, 0, time.time()
  63. for X, y in train_iter:
  64. X = X.to(device)
  65. y = y.to(device)
  66. y_hat = net(X)
  67. l = loss(y_hat, y)
  68. optimizer.zero_grad()
  69. l.backward()
  70. optimizer.step()
  71. train_l_sum += l.cpu().item()
  72. train_acc_sum += (y_hat.argmax(dim=1) == y).sum().cpu().item()
  73. n += y.shape[0]
  74. batch_count += 1
  75. test_acc = evaluate_accuracy(test_iter, net)
  76. print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f, time %.1f sec'
  77. % (epoch + 1, train_l_sum / batch_count, train_acc_sum / n, test_acc, time.time() - start))
  78. if __name__=='__main__':
  79. #调用官方函数进行数据集的读取
  80. mnist_train = torchvision.datasets.MNIST(root='../data', train=True, download=True, transform=transforms.ToTensor())
  81. mnist_test = torchvision.datasets.MNIST(root='../data', train=False, download=True, transform=transforms.ToTensor())
  82. batch_size = 128
  83. train_iter, test_iter = load_data_fashion_mnist(mnist_train, mnist_test, batch_size)
  84. #判断是否支持cuda加速
  85. device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
  86. net = LeNet()
  87. lr, num_epochs = 0.001, 5
  88. optimizer = torch.optim.Adam(net.parameters(), lr=lr)
  89. train(net, train_iter, test_iter, batch_size, optimizer, device, num_epochs)

以上代码源自网络,可以直接运行,这部分不是本文的重点,所以不再过多介绍。

3.从MNIST中取得自己想要的部分

MNIST中有手写字符0-9一共10类,现在我们将想要提取的类别做定义

  1. #numclass中输入想要提取的数字,可以不按顺序
  2. numclass=[0,1,3,5,6,7,8]

这里我们提取0,1,3,5,6,7,8做演示

接着定义一个函数,从pytorch的官方程序得到的迭代器(iter)中取得MNIST的数据

  1. #getdataset函数从torch读取的数据里面提取想要的数字
  2. def getdataset(iter,numclass):
  3. #因为是查表,为了减少查表次数采用了eval()进行一次性查表,cmd记录需要查表的内容
  4. cmd=''
  5. for i,j in enumerate(numclass):
  6. cmd +="("+"y=="+str(j)+")"
  7. if i!=(len(numclass)-1):
  8. cmd +="^"
  9. #开始查表
  10. for i,(X,y)in enumerate(iter):
  11. if i==0 :
  12. index=np.where(eval(cmd))
  13. x_out=X[index]
  14. y_out=y[index]
  15. else:
  16. index=np.where(eval(cmd))
  17. x_out=torch.cat([x_out,X[index]],dim=0)
  18. y_out=torch.cat([y_out,y[index]],dim=0)
  19. #提取到底数据集标签必须重新排序(从0开始)不如会报错
  20. for i,j in enumerate(numclass):
  21. index=np.where(y_out==j)
  22. y_out[index]=i
  23. return x_out,y_out

因为要使用查表的方式提取数据,所以循环次数要越少越好,本文就考虑了使用eval()函数的方法,eval()函数是python的标准库函数,具体用法请自行搜索。

cmd存放由numclass变量决定的代码段,这里第一个for循环结束后cmd变量中存放的内容为

(y==0)^(y==1)^(y==3)^(y==5)^(y==6)^(y==7)^(y==8)

第二个for循环开始查表的操作,从传入的iter中读取X和y,X存放的就是手写字符的图像,y则是标签,我们要对y进行查找。

np.where就是查表的操作,返回的则是查找结果的索引,具体用法也请自行搜索。这里为了不改变数据的tensor类型,用了if语句。

X[index]和y[index]就是python中的数据切片操作了,torch.cat()即为数据的合并操作。

第二个for循环结束之后呢,我们就得到了提取好的部分MNIST数据集。但是还没完,我们需要对y,也就是标签做顺序处理,否则训练的时候pytorch会报错。

第三个for循环也是一个查表操作,运行完毕之后,标签y会顺序化

原来:0,1,3,5,6,7,8

for后:0,1,2,3,4,5,6

这样就能return数据啦。

4.定义Dataset子类

为了使用data.DataLoader进行iter的划分,我们需要重写类函数,定义一个继承于Dataset的MyDataSet类

  1. #MyDataSet重写数据读取类,为了使用data.DataLoader进行iter的划分
  2. class MyDataSet(Dataset):
  3. def __init__(self, data, label):
  4. self.data = data
  5. self.label = label
  6. self.length = data.shape[0]
  7. def __getitem__(self, mask):
  8. return self.data[mask], self.label[mask]
  9. def __len__(self):
  10. return self.length

子类中必须包含的三个元素:__init__,__getitem__和__len__

关于Dataset子类不再过多阐述,不同程序中的使用也大同小异,感兴趣请自行搜索。

5.完整程序段

需要注意的是由于类别数产生了变化,LeNet定义的部分本文做了一个简单的修改,确保自适应类别数。

  1. import torch
  2. from torch import nn
  3. from torch.nn import init
  4. import numpy as np
  5. import sys
  6. import torchvision
  7. import torchvision.transforms as transforms
  8. import time
  9. from torch.utils.data import Dataset
  10. from torch.utils import data
  11. #numclass中输入想要提取的数字,可以不按顺序
  12. numclass=[0,1,3,5,6,7,8]
  13. #getdataset函数从torch读取的数据里面提取想要的数字
  14. def getdataset(iter,numclass):
  15. #因为是查表,为了减少查表次数采用了eval()进行一次性查表,cmd记录需要查表的内容
  16. cmd=''
  17. for i,j in enumerate(numclass):
  18. cmd +="("+"y=="+str(j)+")"
  19. if i!=(len(numclass)-1):
  20. cmd +="^"
  21. #开始查表
  22. for i,(X,y)in enumerate(iter):
  23. if i==0 :
  24. index=np.where(eval(cmd))
  25. x_out=X[index]
  26. y_out=y[index]
  27. else:
  28. index=np.where(eval(cmd))
  29. x_out=torch.cat([x_out,X[index]],dim=0)
  30. y_out=torch.cat([y_out,y[index]],dim=0)
  31. #提取到底数据集标签必须重新排序(从0开始)不如会报错
  32. for i,j in enumerate(numclass):
  33. index=np.where(y_out==j)
  34. y_out[index]=i
  35. return x_out,y_out
  36. #MyDataSet重写数据读取类,为了使用data.DataLoader进行iter的划分
  37. class MyDataSet(Dataset):
  38. def __init__(self, data, label):
  39. self.data = data
  40. self.label = label
  41. self.length = data.shape[0]
  42. def __getitem__(self, mask):
  43. return self.data[mask], self.label[mask]
  44. def __len__(self):
  45. return self.length
  46. #使用pytorch官方方法读取MNIST全部数据并进行数据划分
  47. def load_data_fashion_mnist(mnist_train, mnist_test, batch_size):
  48. if sys.platform.startswith('win'):
  49. num_workers = 0
  50. else:
  51. num_workers = 4
  52. train_iter = data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
  53. test_iter = data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)
  54. return train_iter, test_iter
  55. #Lenet定义
  56. class LeNet(nn.Module):
  57. #网络会跟据numclass调整全连接层的输出
  58. def __init__(self,numofclass=len(numclass)):
  59. super(LeNet, self).__init__()
  60. self.conv = nn.Sequential(
  61. nn.Conv2d(1, 6, 5), # in_channels, out_channels, kernel_size
  62. nn.Sigmoid(),
  63. nn.MaxPool2d(2, 2), # kernel_size, stride
  64. nn.Conv2d(6, 16, 5),
  65. nn.Sigmoid(),
  66. nn.MaxPool2d(2, 2)
  67. )
  68. self.fc = nn.Sequential(
  69. nn.Linear(16*4*4, 120),
  70. nn.Sigmoid(),
  71. nn.Linear(120, 84),
  72. nn.Sigmoid(),
  73. nn.Linear(84, numofclass)
  74. )
  75. def forward(self, img):
  76. feature = self.conv(img)
  77. output = self.fc(feature.view(img.shape[0], -1))
  78. return output
  79. #用于验证的函数
  80. def evaluate_accuracy(data_iter, net, device=None):
  81. if device is None and isinstance(net, torch.nn.Module):
  82. # 如果没指定device就使用net的device
  83. device = list(net.parameters())[0].device
  84. acc_sum, n = 0.0, 0
  85. with torch.no_grad():
  86. for X, y in data_iter:
  87. net.eval() # 评估模式, 这会关闭dropout
  88. acc_sum += (net(X.to(device)).argmax(dim=1) == y.to(device)).float().sum().cpu().item()
  89. net.train() # 改回训练模式
  90. n += y.shape[0]
  91. return acc_sum / n
  92. #训练
  93. def train(net, train_iter, test_iter, batch_size, optimizer, device, num_epochs):
  94. net = net.to(device)
  95. print("training on ", device)
  96. loss = torch.nn.CrossEntropyLoss()
  97. for epoch in range(num_epochs):
  98. train_l_sum, train_acc_sum, n, batch_count, start = 0.0, 0.0, 0, 0, time.time()
  99. for X, y in train_iter:
  100. X = X.to(device)
  101. y = y.to(device)
  102. y_hat = net(X)
  103. l = loss(y_hat, y)
  104. optimizer.zero_grad()
  105. l.backward()
  106. optimizer.step()
  107. train_l_sum += l.cpu().item()
  108. train_acc_sum += (y_hat.argmax(dim=1) == y).sum().cpu().item()
  109. n += y.shape[0]
  110. batch_count += 1
  111. test_acc = evaluate_accuracy(test_iter, net)
  112. print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f, time %.1f sec'
  113. % (epoch + 1, train_l_sum / batch_count, train_acc_sum / n, test_acc, time.time() - start))
  114. if __name__=='__main__':
  115. #调用官方函数进行数据集的读取
  116. mnist_train = torchvision.datasets.MNIST(root='../data', train=True, download=True, transform=transforms.ToTensor())
  117. mnist_test = torchvision.datasets.MNIST(root='../data', train=False, download=True, transform=transforms.ToTensor())
  118. batch_size = 128
  119. train_iter, test_iter = load_data_fashion_mnist(mnist_train, mnist_test, batch_size)
  120. #从读取到的iter中将想要的数字选出来
  121. tdata,tlabel=getdataset(train_iter,numclass)
  122. mnist_train=MyDataSet(tdata,tlabel)
  123. tdata,tlabel=getdataset(test_iter,numclass)
  124. mnist_test=MyDataSet(tdata,tlabel)
  125. print("数据重载完毕:"+str(numclass))
  126. train_iter, test_iter = load_data_fashion_mnist(mnist_train, mnist_test, batch_size)
  127. #判断是否支持cuda加速
  128. device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
  129. net = LeNet()
  130. lr, num_epochs = 0.001, 5
  131. optimizer = torch.optim.Adam(net.parameters(), lr=lr)
  132. train(net, train_iter, test_iter, batch_size, optimizer, device, num_epochs)

6.写在最后

因为数据集较小,我们可以直接在同一程序中进行预处理并直接用于训练,对于比较大的数据集,建议采用存储再读取的方式,不然内存会顶不住。

本文介绍了从公开数据集中取得部分数据集的方法,以MNIST为例,仅作抛砖引玉的作用。实际的程序编写过程中要学会举一反三。

本人才疏学浅,如有错误之处,欢迎指正

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
  

闽ICP备14008679号