1 实验内容简介

1.1 实验目的





1.2 实验内容及要求




1.3 实验数据集介绍

1.3.1 数据集简介

MNIST数据集(Mixed National Institute of Standards and Technology Database)是一个用来训练各种图像处理系统的二进制图像数据集,广泛应用于机器学习中的训练和测试。MNIST数据集共有70000张图像,其中训练集60000张,测试集10000张。所有图像都是28×28的灰度图像,每张图像包含一个手写数字。


1.3.2 数据集详细信息


训练集60000张图像,其中30000张来自NIST的Special Database 3,30000张来自NIST的Special Database 1。测试集10000张图像,其中5000张来自NIST的Special Database 3,5000张来自NIST的Special Database 1。






1.3.3 数据集文件结构




├── t10k-images-idx3-ubyte.gz        #测试集图像压缩包(1648877 bytes)

├── t10k-labels-idx1-ubyte.gz         #测试集标签压缩包(4542 bytes)

├── train-images-idx3-ubyte.gz        #训练集图像压缩包(9912422 bytes)

└── train-labels-idx1-ubyte.gz         #训练集标签压缩包(28881 bytes)



├── t10k-images-idx3-ubyte                #测试集图像数据

├── t10k-labels-idx1-ubyte                 #测试集标签数据

├── train-images-idx3-ubyte                #训练集图像数据

└── train-labels-idx1-ubyte                 #训练集标签数据




·训练集标签数据 (train-labels-idx1-ubyte)






·测试集图像数据 (t10k-images-idx3-ubyte) 



2 算法原理阐述

2.1 Softmax回归

Softmax 回归模型主要用于解决离散值预测的多分类问题,是Logistic回归在多分类问题上的推广。Softmax回归和Logistic回归一样,也是将输入特征与权重做线性叠加,但是Softmax回归的输出值个数等于标签中的类别数,对每个输入计算输出。譬如我们考察一个如下图所示的隐层有四个结点、输出层有三个结点的单隐层神经网络,每个输出的计算依赖于所有的输入。






2.2 前馈神经网络






3 实验流程及代码实现

3.1 实验平台简介

3.1.1 MindSpore



3.1.2 pytorch



3.2 评价指标

3.2.1 混淆矩阵

混淆矩阵(Confusion Matrix)又被称为错误矩阵,通过它可以直观地观察到算法的效果。它的每一列是样本的预测分类,每一行是样本的真实分类(反过来也可以),顾名思义,它反映了分类结果的混淆程度。







·True positives(TP)


·False positives(FP) 


·False negatives(FN)


·True negatives(TN)



3.2.2 准确率




3.3 实验流程

3.3.1 基于MindSporeSoftmax回归 读取数据集

分别读取MNIST的标签数据和图像数据。由前面的数据集介绍可知,标签数据的前8个字节是magic number和样本个数字段,所以标签数据的偏移量为8。我们使用struct.unpack方法读取前两个数据,lbpath.read(8)表示一次从文件中读取8个字节,这样读到的前两个数据分别是magic number(2049)和样本个数(60000),之后再读取标签数据。同样地,图像数据的前16个字节分别是magic number、图像数量、图像的高rows和图像的宽columns。我们使用struct.unpack方法读取前四个数据,lbpath.read(16)表示一次从文件中读取16个字节,这样读到的前四个数据分别是magic number(2051)、图像数量(60000)、图像的高rows(28)和图像的宽columns(28)。

  1. # 导入已下载的数据集
  2. def load_mnist(path, kind='train'):
  3. # os.path.join()函数用于路径拼接文件路径
  4. labels_path = os.path.join(path, '%s-labels.idx1-ubyte' % kind)
  5. images_path = os.path.join(path, '%s-images.idx3-ubyte' % kind)
  6. # 读取训练集标签数据集
  7. with open(labels_path, 'rb') as lbpath:
  8. magic, n = struct.unpack('>II',lbpath.read(8))
  9. # 使用struct.unpack方法读取前两个数据。lbpath.read(8)表示一次从文件中读取8个字节
  10. # 这样读到的前两个数据分别是magic number(2049)和样本个数(60000)
  11. labels = np.fromfile(lbpath,dtype=np.uint8)
  12. # 读取标签,标签的数值在0~9之间
  13. # 读取训练集图片数据集
  14. with open(images_path, 'rb') as imgpath:
  15. magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
  16. # 使用struct.unpack方法读取前四个数据。lbpath.read(16)表示一次从文件中读取16个字节
  17. # 这样读到的前四个数据分别是magic number(2051)、图像数量(60000)、图像的高rows(28)、图像的宽columns(28)
  18. images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 28, 28, 1) # 设置图像形状,高度宽度均为28,通道数为1
  19. return images, labels
  20. # labels形状为(60000,)
  21. # images形状为(60000, 28, 28, 1) 自定义迭代器







  1. class FashionMnist():
  2. def __init__(self, path, kind): # 定义数据初始化等操作,在实例化数据集对象时被调用
  3. self.data, self.label = load_mnist(path, kind)
  4. def __getitem__(self, index): # 定义该函数后可使其支持随机访问,能够根据给定的索引值index,获取数据集中的数据并返回
  5. return self.data[index], self.label[index]
  6. def __len__(self): # 返回数据集的样本数量
  7. return len(self.data) 数据归一化

  1. # 数据变换
  2. trans = [cv.Rescale(1.0 / 255.0, 0), cv.HWC2CHW()] # 数据做标准化处理,所得到的数值分布满足正态分布
  3. # 调整图像的像素大小。Rescale变换用于调整图像像素值的大小,包括两个参数:
  4. # rescale:缩放因子。shift:平移因子。图像的每个像素将根据这两个参数
  5. # 进行调整,输出的像素值为 outputi = inputi ∗ rescale+shift
  6. # HWC2CWH变换用于转换图像格式,(height, width, channel)转为(channel, height, width)
  7. type_cast_op = C.TypeCast(mindspore.int32) # 将输入的Tensor转换为指定的数据类型
  8. if resize:
  9. trans.insert(0, cv.Resize(resize)) # 调整为给定的尺寸大小
  10. mnist_train = mnist_train.map(trans, input_columns=["image"])
  11. mnist_test = mnist_test.map(trans, input_columns=["image"])
  12. mnist_train = mnist_train.map(type_cast_op, input_columns=['label'])
  13. mnist_test = mnist_test.map(type_cast_op, input_columns=['label'])
  14. mnist_train = mnist_train.batch(batch_size, num_parallel_workers=works)
  15. mnist_test = mnist_test.batch(batch_size, num_parallel_workers=works) 构建网络


  1. net = nn.SequentialCell([nn.Flatten(), nn.Dense(784, 10, weight_init=Normal(0.01, 0), bias_init='zero')])
  2. loss = nn.SoftmaxCrossEntropyWithLogits(sparse=True, reduction='mean')
  3. optim = nn.SGD(net.trainable_params(), learning_rate=0.1) 训练网络

  1. # 训练模型一个迭代周期
  2. def train_epoch(net, train_iter, loss, optim):
  3. net_with_loss = nn.WithLossCell(net, loss) # 将net与loss连接
  4. net_train = nn.TrainOneStepCell(net_with_loss, optim) # 将net,loss,optim连接,生成训练模型
  5. metric = Accumulator(3)
  6. for X, y in train_iter:
  7. l = net_train(X, y)
  8. y_hat = net(X)
  9. metric.add(float(l.sum().asnumpy()),accuracy(y_hat, y), y.size)
  10. return metric[0] / metric[2], metric[1] / metric[2] 准确率及混淆矩阵

  1. # 计算在指定数据集上模型的精度;得到混淆矩阵
  2. def evaluate_accuracy(net, data_iter):
  3. metric = Accumulator(2) # 累加器,metric[0]记录正确预测数,metric[1]记录预测总数
  4. hunxiao=np.zeros((10,10))
  5. for X, y in data_iter:
  6. metric.add(accuracy(net(X), y), y.size)
  7. y_hat = net(X).argmax(axis=1)
  8. hunxiao+=confusion_matrix(y.asnumpy(),y_hat.asnumpy())
  9. plot_confusion_matrix(hunxiao, title='Confusion Matrix')
  10. return metric[0] / metric[1] # 正确预测数 / 预测总数 绘制混淆矩阵

  1. classes = ['0', '1', '2', '3', '4', '5','6','7','8','9']
  2. def plot_confusion_matrix(cm, title='Confusion Matrix'):
  3. plt.figure(figsize=(12, 8), dpi=100)
  4. np.set_printoptions(precision=2)
  5. # 混淆矩阵中每格的值
  6. ind_array = np.arange(len(classes))
  7. x, y = np.meshgrid(ind_array, ind_array)
  8. for x_val, y_val in zip(x.flatten(), y.flatten()):
  9. c = cm[y_val][x_val]
  10. if c > 0.001:
  11. plt.text(x_val, y_val, "%0.2f" % (c,), color='#EE3B3B', fontsize=10, va='center', ha='center')
  12. plt.imshow(cm, interpolation='nearest', cmap=plt.cm.binary)
  13. plt.title(title)
  14. plt.colorbar()
  15. xlocations = np.array(range(len(classes)))
  16. plt.xticks(xlocations, classes, rotation=90)
  17. plt.yticks(xlocations, classes)
  18. plt.ylabel('Actual Label')
  19. plt.xlabel('Predict Label')
  20. tick_marks = np.array(range(len(classes))) + 0.5
  21. plt.gca().set_xticks(tick_marks, minor=True)
  22. plt.gca().set_yticks(tick_marks, minor=True)
  23. plt.gca().xaxis.set_ticks_position('none')
  24. plt.gca().yaxis.set_ticks_position('none')
  25. plt.grid(True, which='minor', linestyle='-')
  26. plt.gcf().subplots_adjust(bottom=0.15)
  27. plt.show()


3.3.2 基于pytorchSoftmax回归 定义网络结构


  1. class Net(nn.Module):
  2. def __init__(self):
  3. super(Net, self).__init__() # 初始化
  4. self.fc1 = nn.Linear(784, 10) # 784个输入10个输出
  5. self.softmax = nn.Softmax(dim=1) # 激活函数 dim=1表示对第一个维度进行概率计算
  6. def forward(self, x):
  7. # torch.Size([64, 1, 28, 28]) -> (64,784)
  8. x = x.view(x.size()[0], -1) # 4维变2维 (在全连接层做计算只能2维)
  9. x = self.fc1(x) # 传给全连接层继续计算
  10. x = self.softmax(x) # 使用softmax激活函数进行计算
  11. return x 训练模型 

  1. def train():
  2. for i, data in enumerate(train_loader):
  3. # 获得一个批次的数据和标签
  4. inputs, labels = data
  5. # 获得模型预测结果(64,10)
  6. out = model(inputs)
  7. # to onehot 把数据标签变成独热编码
  8. labels = labels.reshape(-1, 1) # 先把1维变成2维(64)-(64,1)
  9. # tensor.scatter(dim,index,src)
  10. # dim:对那个维度进行独热编码
  11. # index:要将src中对应的值放到tensor那个位置
  12. # src:插入index的数值
  13. one_hot = torch.zeros(inputs.shape[0], 10).scatter(1, labels, 1)
  14. # 计算loss mse_loss的两个数据的shape要一致
  15. loss = mse_loss(out, one_hot)
  16. # 梯度清零
  17. optimizer.zero_grad()
  18. # 计算梯度
  19. loss.backward()
  20. # 修改权值
  21. optimizer.step()


3.3.3 基于MindSpore的前馈神经网络 加载并查看数据集


  1. ds_train = ds.MnistDataset(os.path.join(r'D:\Dataset\MNIST', "train"))
  2. ds_test = ds.MnistDataset(os.path.join(r'D:\Dataset\MNIST', "test"))
  3. print('训练数据集数量:', ds_train.get_dataset_size())
  4. print('测试数据集数量:', ds_test.get_dataset_size())
  5. # 该数据集可以通过create_dict_iterator()转换为迭代器形式,然后通过get_next()一个个输出样本
  6. image = ds_train.create_dict_iterator().get_next()
  7. print('图像长/宽/通道数:', image['image'].shape)
  8. # 一共10类,用0-9的数字表达类别。
  9. print('一张图像的标签样式:', image['label']) 生成测试集和训练集

创建数据集,为训练集设定Batch Size,这是因为我们通常会采用小批量梯度下降法(MBGD)来训练网络,所以batch size作为一个非常重要的超参数需要提前设定好。在本代码中,batch size为128,意味着每一次更新参数,我们都用128个样本的平均损失值来进行更新。 

  1. def create_dataset(training=True, batch_size=128, resize=(28, 28), rescale=1 / 255, shift=-0.5, buffer_size=64):
  2. ds = ms.dataset.MnistDataset(DATA_DIR_TRAIN if training else DATA_DIR_TEST)
  3. # 定义改变形状、归一化和更改图片维度的操作。
  4. # 改为(28,28)的形状
  5. resize_op = CV.Resize(resize)
  6. # rescale方法可以对数据集进行归一化和标准化操作,这里就是将像素值归一到0和1之间,shift参数可以让值域偏移至-0.5和0.5之间
  7. rescale_op = CV.Rescale(rescale, shift)
  8. # 由高度、宽度、深度改为深度、高度、宽度
  9. hwc2chw_op = CV.HWC2CHW()
  10. # 利用map操作对原数据集进行调整
  11. ds = ds.map(input_columns="image", operations=[resize_op, rescale_op, hwc2chw_op])
  12. ds = ds.map(input_columns="label", operations=C.TypeCast(ms.int32))
  13. # 设定洗牌缓冲区的大小,从一定程度上控制打乱操作的混乱程度
  14. ds = ds.shuffle(buffer_size=buffer_size)
  15. # 设定数据集的batch_size大小,并丢弃剩余的样本
  16. ds = ds.batch(batch_size, drop_remainder=True)
  17. return ds 模型搭建与训练


  1. class ForwardNN(nn.Cell):
  2. def __init__(self):
  3. super(ForwardNN, self).__init__()
  4. self.flatten = nn.Flatten()
  5. self.relu = nn.ReLU()
  6. self.fc1 = nn.Dense(784, 512, activation='relu')
  7. self.fc2 = nn.Dense(512, 256, activation='relu')
  8. self.fc3 = nn.Dense(256, 128, activation='relu')
  9. self.fc4 = nn.Dense(128, 64, activation='relu')
  10. self.fc5 = nn.Dense(64, 32, activation='relu')
  11. self.fc6 = nn.Dense(32, 10, activation='softmax')
  12. def construct(self, input_x):
  13. output = self.flatten(input_x)
  14. output = self.fc1(output)
  15. output = self.fc2(output)
  16. output = self.fc3(output)
  17. output = self.fc4(output)
  18. output = self.fc5(output)
  19. output = self.fc6(output)
  20. return output


  1. lr = 0.001
  2. num_epoch = 8
  3. momentum = 0.9
  4. net = ForwardNN()
  5. # 定义loss函数,改函数不需要求导,可以给离散的标签值,且loss值为均值
  6. loss = nn.loss.SoftmaxCrossEntropyWithLogits(sparse=True, reduction='mean')
  7. # 定义准确率为评价指标,用于评价模型
  8. metrics = {"Accuracy": Accuracy(), "Confusion_matrix": nn.ConfusionMatrix(num_classes= 10)}
  9. # 定义优化器为Adam优化器,并设定学习率
  10. opt = nn.Adam(net.trainable_params(), lr)
  11. # 生成验证集,验证机不需要训练,所以不需要repeat
  12. ds_eval = create_dataset(False, batch_size=32)
  13. # 模型编译过程,将定义好的网络、loss函数、评价指标、优化器编译
  14. model = Model(net, loss, opt, metrics)
  15. # 生成训练集
  16. ds_train = create_dataset(True, batch_size=32)
  17. print("============== 开始训练 ==============")
  18. # 训练模型,用loss作为监控指标,并利用昇腾芯片的数据下沉特性进行训练
  19. model.train(num_epoch, ds_train, callbacks=[LossMonitor()], dataset_sink_mode=True)
  20. # 使用测试集评估模型,打印总体准确率
  21. metrics_result = model.eval(ds_eval)
  22. res = metrics_result["Confusion_matrix"]


3.3.4 基于pytorch的前馈神经网络

  1. class BP:
  2. def __init__(self):
  3. self.input = np.zeros((100, 784)) # 100 samples per round
  4. self.hidden_layer_1 = np.zeros((100, 20))
  5. self.hidden_layer_2 = np.zeros((100, 20))
  6. self.hidden_layer_3 = np.zeros((100, 20))
  7. self.output_layer = np.zeros((100, 10))
  8. self.w1 = 2 * np.random.random((784, 20)) - 1 # limit to (-1, 1)
  9. self.w2 = 2 * np.random.random((20, 20)) - 1
  10. self.w3 = 2 * np.random.random((20, 20)) - 1
  11. self.w4 = 2 * np.random.random((20, 10)) - 1
  12. self.error = np.zeros(10)
  13. self.learning_rate = 0.1
  14. def sigmoid(self, x):
  15. return 1 / (1 + np.exp(-x))
  16. def sigmoid_deri(self, x):
  17. return x * (1 - x)
  18. def forward_prop(self, data, label): # label:100 X 10,data: 100 X 784
  19. self.input = data
  20. self.hidden_layer_1 = self.sigmoid(np.dot(self.input, self.w1))
  21. self.hidden_layer_2 = self.sigmoid(np.dot(self.hidden_layer_1, self.w2))
  22. self.hidden_layer_3 = self.sigmoid(np.dot(self.hidden_layer_2, self.w3))
  23. self.output_layer = self.sigmoid(np.dot(self.hidden_layer_3, self.w4))
  24. self.error = label - self.output_layer
  25. return self.output_layer
  26. def backward_prop(self):
  27. output_diff = self.error * self.sigmoid_deri(self.output_layer)
  28. hidden_diff_3 = np.dot(output_diff, self.w4.T) * self.sigmoid_deri(self.hidden_layer_3)
  29. hidden_diff_2 = np.dot(hidden_diff_3, self.w3.T) * self.sigmoid_deri(self.hidden_layer_2)
  30. hidden_diff_1 = np.dot(hidden_diff_2, self.w2.T) * self.sigmoid_deri(self.hidden_layer_1)
  31. # update
  32. self.w4 += self.learning_rate * np.dot(self.hidden_layer_3.T, output_diff)
  33. self.w3 += self.learning_rate * np.dot(self.hidden_layer_2.T, hidden_diff_3)
  34. self.w2 += self.learning_rate * np.dot(self.hidden_layer_1.T, hidden_diff_2)
  35. self.w1 += self.learning_rate * np.dot(self.input.T, hidden_diff_1)


4 实验结果及分析

4.1 实验结果

4.1.1 基于MindSporeSoftmax回归 准确率



 5f612dc6e3884a1a82496970fcf2ac3a.png 混淆矩阵




4.1.2 基于pytorchSoftmax回归 准确率




可见经过20轮的训练,测试集准确率收敛于0.92左右,这与MindSpore的性能较为相似。 混淆矩阵




4.1.3 基于MindSpore的前馈神经网络 准确率


基于MindSpore的前馈神经网络经过较少的轮数即可收敛,正确率为0.88左右。 混淆矩阵


4.1.4 基于pytorch的前馈神经网络 准确率


基于pytorch的前馈神经网络同样经过较少轮数即可收敛,准确率为92.6%左右,高于基于MindSpore的前馈神经网络。 混淆矩阵



4.2 结果分析与对比
















