当前位置:   article > 正文

tensorflow2------dnn实现_tensorflow2 dnn

tensorflow2 dnn

在tensorflow2上实现深度神经网络的模型搭建与训练过程。

这里重点说明一下搭建模型过程中有使用到 批归一化以及Dropout、selu激活函数等。

  1. import matplotlib as mpl #画图用的库
  2. import matplotlib.pyplot as plt
  3. #下面这一句是为了可以在notebook中画图
  4. %matplotlib inline
  5. import numpy as np
  6. import sklearn #机器学习算法库
  7. import pandas as pd #处理数据的库
  8. import os
  9. import sys
  10. import time
  11. import tensorflow as tf
  12. from tensorflow import keras #使用tensorflow中的keras
  13. #import keras #单纯的使用keras
  14. print(tf.__version__)
  15. print(sys.version_info)
  16. for module in mpl, np, sklearn, pd, tf, keras:
  17. print(module.__name__, module.__version__)
  18. 2.0.0
  19. sys.version_info(major=3, minor=6, micro=9, releaselevel='final', serial=0)
  20. matplotlib 3.1.2
  21. numpy 1.18.0
  22. sklearn 0.22
  23. pandas 0.25.3
  24. tensorflow 2.0.0
  25. tensorflow_core.keras 2.2.4-tf
  1. fashion_mnist = keras.datasets.fashion_mnist # 该数据集是黑白服装数据集
  2. #拆分训练集和测试集
  3. (x_train_all, y_train_all), (x_test, y_test) = fashion_mnist.load_data()
  4. #将训练集拆分为训练集和验证集
  5. #训练集共6万张图片,我们将前5000张作为验证集,后面所有的做训练集
  6. x_valid, x_train = x_train_all[:5000], x_train_all[5000:]
  7. y_valid, y_train = y_train_all[:5000], y_train_all[5000:]
  8. print(x_train[0].dtype)
  9. print(x_train[0]) # 是一个数据矩阵 28*28, 矩阵中的每一个数值都是uint8类型
  10. print(y_train[0]) #这里的y值均为数字编码,非向量,所以后面定义模型损失函数为 sparse_categorical_crossentropy
  11. print(x_train.shape, y_train.shape)
  12. print(x_valid.shape, y_valid.shape)
  13. print(x_test.shape, y_test.shape)
  14. uint8
  15. [[ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  16. 0 1 0 0 0 0 0 0 0 0]
  17. [ 0 0 0 0 0 0 0 0 0 0 0 44 127 182 185 161 120 55
  18. 0 0 0 0 0 0 0 0 0 0]
  19. [ 0 0 0 0 0 0 0 0 0 42 198 251 255 251 249 247 255 252
  20. 214 100 0 0 0 0 0 0 0 0]
  21. [ 0 0 0 0 0 0 2 0 0 233 252 237 239 234 237 235 237 237
  22. 254 227 0 0 0 0 1 0 0 0]
  23. [ 0 0 0 0 0 2 0 0 16 210 225 215 175 217 216 193 196 226
  24. 221 209 50 0 0 2 0 0 0 0]
  25. [ 0 0 0 0 2 0 0 199 229 232 230 245 204 219 253 245 207 194
  26. 223 231 236 235 0 0 3 0 0 0]
  27. [ 0 0 0 0 1 0 137 235 204 209 201 209 234 190 234 218 215 238
  28. 239 204 189 224 154 0 0 0 0 0]
  29. [ 0 0 0 0 0 0 194 201 200 209 202 193 205 194 183 218 231 197
  30. 172 181 193 205 199 0 0 0 0 0]
  31. [ 0 0 0 0 0 3 212 203 188 189 196 198 198 201 196 217 179 167
  32. 183 217 197 202 219 30 0 0 0 0]
  33. [ 0 0 0 0 0 34 225 200 194 190 188 192 196 192 170 202 190 201
  34. 195 200 201 209 227 50 0 0 0 0]
  35. [ 0 0 0 0 0 68 225 210 211 198 192 196 204 196 181 212 197 195
  36. 192 206 220 210 229 93 0 0 0 0]
  37. [ 0 0 0 0 0 111 223 227 253 209 196 204 211 206 183 216 206 210
  38. 203 215 244 224 227 150 0 0 0 0]
  39. [ 0 0 0 0 0 139 225 224 255 202 206 212 209 211 190 213 202 207
  40. 206 222 255 230 220 190 0 0 0 0]
  41. [ 0 0 0 0 0 180 226 224 255 199 204 207 214 214 190 216 206 203
  42. 205 219 243 224 214 234 0 0 0 0]
  43. [ 0 0 0 0 0 225 223 228 254 209 206 208 213 210 191 215 207 204
  44. 208 211 249 226 214 255 38 0 0 0]
  45. [ 0 0 0 0 0 250 232 240 239 211 203 209 205 211 197 215 208 208
  46. 214 213 239 231 219 255 81 0 0 0]
  47. [ 0 0 0 0 0 248 236 247 240 203 200 208 206 214 193 213 212 208
  48. 212 211 243 242 225 254 66 0 0 0]
  49. [ 0 0 0 0 0 247 230 252 226 199 211 202 211 213 182 213 212 206
  50. 202 219 207 247 222 237 104 0 0 0]
  51. [ 0 0 0 0 10 244 219 250 205 199 209 202 209 211 189 214 206 210
  52. 200 212 154 240 208 219 140 0 0 0]
  53. [ 0 0 0 0 21 255 222 238 184 210 192 206 209 210 189 213 211 209
  54. 192 228 155 226 238 241 166 0 0 0]
  55. [ 0 0 0 0 37 245 226 241 150 197 189 204 209 210 183 213 213 201
  56. 184 215 146 216 236 225 154 0 0 0]
  57. [ 0 0 0 0 58 239 227 255 158 193 195 204 209 213 180 207 217 199
  58. 194 211 158 219 236 216 151 0 0 0]
  59. [ 0 0 0 0 68 233 226 243 139 200 193 205 210 208 180 205 212 203
  60. 196 216 157 179 255 216 155 0 0 0]
  61. [ 0 0 0 0 81 225 224 211 138 219 185 201 213 207 197 226 212 200
  62. 190 215 183 90 255 211 147 0 0 0]
  63. [ 0 0 0 0 91 210 230 158 114 205 187 208 209 206 193 210 211 204
  64. 195 204 181 23 255 213 158 0 0 0]
  65. [ 0 0 0 0 87 205 232 109 164 255 214 224 222 210 197 214 225 222
  66. 211 220 217 0 234 216 169 0 0 0]
  67. [ 0 0 0 0 92 213 232 146 5 134 151 162 170 183 182 164 166 178
  68. 162 156 98 0 240 225 210 0 0 0]
  69. [ 0 0 0 0 43 164 206 141 0 0 0 0 0 0 0 0 0 0
  70. 0 0 0 0 127 125 76 0 0 0]]
  71. 4
  72. (55000, 28, 28) (55000,)
  73. (5000, 28, 28) (5000,)
  74. (10000, 28, 28) (10000,)
  1. print(np.max(x_train), np.min(x_train))
  2. 255 0
  1. #在图像分类领域我们提升准确率的手段 归一化:
  2. # 1.对训练数据进行归一化 2. 批归一化
  3. # x = (x - u)/std u为均值,std为方差
  4. from sklearn.preprocessing import StandardScaler #使用sklearn中的StandardScaler实现训练数据归一化
  5. scaler = StandardScaler()
  6. #fit_transform:得到方差、均值、最大最小值然后数据进行归一化操作
  7. #https://blog.csdn.net/youhuakongzhi/article/details/90519801
  8. #x_train:先转为float32用于做除法,x_train本身为三维矩阵[None,28,28],因为fit_transform要求二维数据所以需要转换为[None, 784],再转回三维矩阵
  9. x_train_scaled = scaler.fit_transform(
  10. x_train.astype(np.float32).reshape(-1,1)).reshape(-1,28,28)
  11. #是因为在trainData的时候,已经使用fit()得到了整体的指标(均值,方差等)并被保存起来了后面验证集测试集可以使用,所以在测试集上直接transform(),使用之前的指标,
  12. #如果在测试集上再进行fit(),由于两次的数据不一样,导致得到不同的指标,会使预测发生偏差,因为模型是针对之前的数据fit()出来
  13. #的标准来训练的,而现在的数据是新的标准,会导致预测的不准确
  14. x_valid_scaled = scaler.transform(
  15. x_valid.astype(np.float32).reshape(-1,1)).reshape(-1,28,28)
  16. x_test_scaled = scaler.transform(
  17. x_test.astype(np.float32).reshape(-1,1)).reshape(-1,28,28)
  1. print(np.max(x_train_scaled), np.min(x_train_scaled))
  2. 2.0231433 -0.8105136
  1. #展示一下数据集中的图片
  2. ###展示单张图片
  3. def show_single_image(img_arr):
  4. plt.imshow(img_arr, cmap="binary") #cmap:将标准化标量映射为颜色, binary代表白底黑字
  5. plt.show()
  6. show_single_image(x_train[0])
  7. ###展示图片组
  8. def show_imgs(n_rows, n_cols, x_data, y_data, class_names):
  9. assert len(x_data) == len(y_data)
  10. assert n_rows * n_cols < len(x_data)
  11. plt.figure(figsize = (n_cols * 1.4, n_rows * 1.6)) #.figure 在plt中绘制一张图片
  12. for row in range(n_rows):
  13. for col in range(n_cols):
  14. index = n_cols * row + col
  15. plt.subplot(n_rows, n_cols, index + 1) # 创建单个子图
  16. plt.imshow(x_data[index], cmap="binary", interpolation='nearest')
  17. plt.axis('off') #取消坐标系
  18. plt.title(class_names[y_data[index]]) #标题
  19. plt.show()
  20. class_names = ['T-shirt', 'Trouser', 'Pullover', 'Dress', 'Coat',
  21. 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']
  22. show_imgs(3, 5, x_train, y_train, class_names)

  1. #tf.keras.models.Sequential()
  2. #模型的两种写法
  3. #1.方法1
  4. '''
  5. model = keras.models.Sequential()
  6. #model = keras.Sequential()
  7. #Flatten层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到全连接层的过渡,输入是28*28的图像
  8. model.add(keras.layers.Flatten(input_shape=[28, 28]))
  9. #Dense层为全连接层,单元数设置为300,激活函数为 relu
  10. model.add(keras.layers.Dense(300, activation="relu"))
  11. #全连接层2
  12. model.add(keras.layers.Dense(100, activation="relu"))
  13. #全连接层3
  14. model.add(keras.layers.Dense(10, activation="softmax"))
  15. '''
  16. #激活函数定义:
  17. #relu: y=max(0,x)
  18. #softmax:将向量变成概率分布. X = [x1, x2, x3] ==转换成==> y = [e^x1/sum, e^x2/sum, e^x3/sum], sum=e^x1 + e^x2 + e^x3
  19. #2.方法2
  20. '''
  21. model = keras.models.Sequential([
  22. keras.layers.Flatten(input_shape=[28,28]),
  23. keras.layers.Dense(300, activation="relu"),
  24. keras.layers.Dense(100, activation="relu"),
  25. keras.layers.Dense(10, activation="softmax")
  26. ])
  27. '''
  28. model = keras.models.Sequential()
  29. model.add(keras.layers.Flatten(input_shape=[28,28]))
  30. for _ in range(20):
  31. #model.add(keras.layers.Dense(100,activation="relu"))
  32. #model.add(keras.layers.BatchNormalization())#这里批归一化是放在激活函数之后
  33. """#批归一化放在激活函数之前的一种实现,可行
  34. model.add(keras.layers.Dense(100))
  35. model.add(keras.layers.BatchNormalization())
  36. model.add(keras.layers.Activation("relu"))
  37. """
  38. model.add(keras.layers.Dense(100,activation="selu"))# 激活函数selu自带数据归一化功能,在一定程度上也能缓解梯度消失问题
  39. #这里演示只添加一层添加Dropout,放在此处表示给前面一层做Dropout
  40. #AlphaDropout优点:
  41. #1.均值和方差不变:普通的dropout在dropout之后可能激活值分布就发生变化,但是alphadropout并不会
  42. #2.归一化性质不变:因为均值和方差不变所以归一化性质也就不变,那么可以结合bn、selu来使用,因为他不会导致分布发生变化
  43. model.add(keras.layers.AlphaDropout(rate=0.5))#rete表示去掉的单元数比例,一般设置为0.5,此时子网络数目最大
  44. #model.add(keras.layers.Dropout(rate=0.5))#一般不使用Dropout
  45. model.add(keras.layers.Dense(10,activation="softmax"))
  46. #计算目标函数
  47. # reason for sparse: y->index. y->one_hot->[]
  48. #如果你的 targets 是 one-hot 编码,用 categorical_crossentropy
  49. #  one-hot 编码:[0, 0, 1], [1, 0, 0], [0, 1, 0]
  50. #如果你的 tagets 是 数字编码 ,用 sparse_categorical_crossentropy
  51. #  数字编码:2, 0, 1
  52. #这里前面有print过y的值,为数字,所以使用 sparse_categorical_crossentropy
  53. model.compile(loss="sparse_categorical_crossentropy",
  54. optimizer="adam", #optimizer="sgd", 优化算法一般来说我们无脑用adam即可
  55. metrics=["accuracy"])
  1. #Tensorflow中的callback用于模型训练过程中的一些监听操作,常用的callback类型如下三类:
  2. #Tensorboard 可视化Tensorboard
  3. #earlystopping 当loss函数不能再优化时停止训练,这样可以截取到最优的模型参数
  4. #ModelCheckpoint 每次epoch之后就保存模型
  5. #当前目录下新建一个callbacks文件夹并在里面创建一个h5模型文件
  6. import shutil
  7. logdir='./callbacks_dnn'
  8. if os.path.exists(logdir):
  9. shutil.rmtree(logdir) #先强制删除该文件夹,后面再新建
  10. os.mkdir(logdir)
  11. output_model_file=os.path.join(logdir,"fashion_mnist_model.h5")#在logdir中创建一个模型文件.h5
  12. #定义一个callbacks数组
  13. callbacks = [
  14. keras.callbacks.TensorBoard(logdir),
  15. keras.callbacks.ModelCheckpoint(output_model_file,save_best_only=True),#这里第二个参数表示仅保存最好的那个模型
  16. keras.callbacks.EarlyStopping(patience=5,min_delta=1e-3)
  17. ]
  18. #fit用于训练
  19. history=model.fit(x_train_scaled, y_train, epochs=10, #epochs用于遍历训练集次数
  20. validation_data=(x_valid_scaled,y_valid),#加入验证集,每隔一段时间就对验证集进行验证
  21. callbacks=callbacks)
  22. Train on 55000 samples, validate on 5000 samples
  23. Epoch 1/10
  24. 55000/55000 [==============================] - 10s 184us/sample - loss: 0.7189 - accuracy: 0.7583 - val_loss: 0.5480 - val_accuracy: 0.8312
  25. Epoch 2/10
  26. 55000/55000 [==============================] - 9s 166us/sample - loss: 0.5778 - accuracy: 0.8115 - val_loss: 0.5328 - val_accuracy: 0.8206
  27. Epoch 3/10
  28. 55000/55000 [==============================] - 8s 148us/sample - loss: 0.5323 - accuracy: 0.8260 - val_loss: 0.5671 - val_accuracy: 0.8200
  29. 。。。
  30. 55000/55000 [==============================] - 8s 153us/sample - loss: 0.4488 - accuracy: 0.8495 - val_loss: 0.4495 - val_accuracy: 0.8580
  31. Epoch 10/10
  32. 55000/55000 [==============================] - 8s 145us/sample - loss: 0.5389 - accuracy: 0.8201 - val_loss: 0.8549 - val_accuracy: 0.7048
  1. #将上面history中的数据指标用一张图来表示
  2. def plot_learning_curves(history):
  3. pd.DataFrame(history.history).plot(figsize=(8,5)) #设置图的大小
  4. plt.grid(True) #显示网格
  5. plt.gca().set_ylim(0,1) #设置y轴范围
  6. plt.show()
  7. plot_learning_curves(history)
  8. #刚开始曲线很平滑的原因:
  9. #1.参数众多,训练不充分
  10. #2.梯度消失->链式法则->复合函数f(g(x))
  11. # 批归一化缓解梯度消失现象

  1. #测试集上进行测试评估一下
  2. model.evaluate(x_test_scaled,y_test)
  3. 10000/1 [========================。。。=========] - 1s 63us/sample - loss: 0.6278 - accuracy: 0.6960
  4. [0.8799518074989319, 0.696]

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/682634
推荐阅读
相关标签
  

闽ICP备14008679号