当前位置:   article > 正文

语义分割 | 基于 VGG16 预训练网络和 Segnet 架构实现迁移学习_vgg16 标注json

vgg16 标注json

Hi,大家好,我是半亩花海。本文主要使用数据标注工具 Labelme 对猫(cat)和狗(dog)这两种训练样本进行标注,使用预训练模型 VGG16 作为卷积基,并在其之上添加了全连接层。基于标注样本的信息和预训练模型的特征提取能力以及 Segnet 架构,训练自己构建的语义分割网络,从而实现迁移学习


目录

一、数据集准备

2.1 JSON 转换成 PNG

2.2 生成 JPG 图片和 mask 标签的名称文本

2.3 读取部分图片查看像素值

2.4 图片标签处理

二、模型构建

3.1 编码器搭建

3.2 解码器搭建

3.3 VGG16-SegNet 模型搭建

三、模型训练

四、可视化训练结果

五、模型检测

六、项目总结

七、脚本文件

1. json_to_png.py

2. train_to_txt.py

八、完整代码


一、数据集准备

构建迁移学习数据集,TL_CatDog 文件夹的结构如下(目录解释在括号里面):

  1. ├── TL_CatDog
  2. ├── ckpt (训练权重)
  3. ├── datasets (数据集总文件夹)
  4. ├── Annotations (标注后的 JSON 文件)
  5. ├── JPEGImages (训练集和测试集的猫狗原图)
  6. ├── test
  7. ├── train
  8. ├── Segmentation
  9. ├── train_and_val.txt (数据集名称和 mask 标签的 png 图像名称)
  10. ├── SegmentationClass (语义分割的 mask 标签的 png 图像)

使用点标记法 Create Polygon 对 500 个猫狗待分割图像进行标注,如下图所示。

标注完成后会在同一指定目录下(./datasets/Annotation/)生成 JSON 文件,文件内容主要包括 version (labelme版本)、label (标签类别)、points (各个点坐标)、imagePath (图像路径)、imageHeight (图像高度)、imageWidth (图像宽度) 

2.1 JSON 转换成 PNG

见文末的 json_to_png.py 脚本文件。

2.2 生成 JPG 图片和 mask 标签的名称文本

见文末的 train_to_txt.py 脚本文件。

2.3 读取部分图片查看像素值

  1. def values(image_path):
  2. # 打开图像
  3. image = Image.open(image_path)
  4. # 获取图像的像素数据
  5. pixels = list(image.getdata())
  6. # 使用集合来存储唯一的像素值
  7. unique_pixels = set(pixels)
  8. # 打印每个唯一像素的RGB值
  9. for pixel_value in unique_pixels:
  10. print(f"去重后像素值: {pixel_value}")
  11. image_path = "./datasets/SegmentationClass/467.png"
  12. values(image_path)

去重后像素值: 0

去重后像素值: 1

去重后像素值: 2

2.4 图片标签处理

  1. def generate_arrays_from_file(lines, batch_size):
  2. n = len(lines)
  3. i = 0
  4. while 1:
  5. X_train = []
  6. Y_train = []
  7. for _ in range(batch_size):
  8. if i == 0:
  9. np.random.shuffle(lines) # 对数据进行随机排序,确保每个训练周期数据的顺序都是随机的。
  10. # 读取输入图片并进行归一化和resize
  11. name = lines[i].split(';')[0]
  12. img = Image.open("./datasets/JPEGImage/train/" + name)
  13. img = img.resize((WIDTH, HEIGHT), Image.BICUBIC)
  14. img = np.array(img) / 255
  15. X_train.append(img)
  16. # 读取标签图片并进行归一化和resize
  17. name = lines[i].split(';')[1].split()[0]
  18. label = Image.open("./datasets/SegmentationClass/" + name)
  19. # 通过将标签图像的大小调整为输入图像的一半,可以在减小计算开销的同时保留相对较高的语义信息。
  20. label = label.resize((int(WIDTH / 2), int(HEIGHT / 2)), Image.NEAREST)
  21. if len(np.shape(label)) == 3: # 判断标签是不是彩色的,如果是就变为灰度图像
  22. label = np.array(label)[:, :, 0]
  23. label = np.reshape(np.array(label), [-1]) # 确保标签数据以一维形式被提供给后续的处理步骤。
  24. one_hot_label = np.eye(NCLASSES)[np.array(label, np.int32)]
  25. Y_train.append(one_hot_label)
  26. i = (i + 1) % n
  27. yield np.array(X_train), np.array(Y_train)
'
运行

二、模型构建

3.1 编码器搭建

  • 这里采用 VGG16 的模型结构进行搭建网络

    目的:使得输入的图像进行多次卷积池化操作,提取图像中的各种特征以便后续训练使用

    • 这里只采用 VGG16 的前四次提取特征行为作为编码器
    • 编码器中的每个阶段都会保留一些特征信息,以供解码器在解码阶段使用。

  • 上述图进行举例说明,该网络结构与上述图所述类似,但图片尺寸不同。
  1. def get_convnet_encoder(input_height=416, input_width=416):
  2. img_input = Input(shape=(input_height, input_width, 3))
  3. # 416,416,3 -> 208,208,64
  4. x = Conv2D(64, (3, 3), activation='relu', padding='same', name='block1_conv1')(img_input)
  5. x = Conv2D(64, (3, 3), activation='relu', padding='same', name='block1_conv2')(x)
  6. x = MaxPooling2D((2, 2), strides=(2, 2), name='block1_pool')(x)
  7. f1 = x
  8. # 208,208,64 -> 104,104,128
  9. x = Conv2D(128, (3, 3), activation='relu', padding='same', name='block2_conv1')(x)
  10. x = Conv2D(128, (3, 3), activation='relu', padding='same', name='block2_conv2')(x)
  11. x = MaxPooling2D((2, 2), strides=(2, 2), name='block2_pool')(x)
  12. f2 = x
  13. # 104,104,128 -> 52,52,256
  14. x = Conv2D(256, (3, 3), activation='relu', padding='same', name='block3_conv1')(x)
  15. x = Conv2D(256, (3, 3), activation='relu', padding='same', name='block3_conv2')(x)
  16. x = Conv2D(256, (3, 3), activation='relu', padding='same', name='block3_conv3')(x)
  17. x = MaxPooling2D((2, 2), strides=(2, 2), name='block3_pool')(x)
  18. f3 = x
  19. # 52,52,256 -> 26,26,512
  20. x = Conv2D(512, (3, 3), activation='relu', padding='same', name='block4_conv1')(x)
  21. x = Conv2D(512, (3, 3), activation='relu', padding='same', name='block4_conv2')(x)
  22. x = Conv2D(512, (3, 3), activation='relu', padding='same', name='block4_conv3')(x)
  23. x = MaxPooling2D((2, 2), strides=(2, 2), name='block4_pool')(x)
  24. f4 = x
  25. return img_input, [f1, f2, f3, f4]
'
运行

3.2 解码器搭建

解码器的目标是生成与输入数据相似的输出

  • 为了更容易求得训练过程当中的损失值,解码器在反卷积(上采样)过程中住处生成与标签类似的输出,将在训练后续进行图像尺寸还原。

注意:

  • ZeroPadding2D 的目的是:在图像边界进行零填充,目的是为了在后续的卷积操作中避免尺寸缩小
  1. # 解码器的目标是生成与输入数据相似的输出
  2. def segnet_decoder(f, n_classes, n_up=3):
  3. assert n_up >= 2
  4. o = f
  5. # 26,26,512 -> 26,26,512
  6. o = ZeroPadding2D((1, 1))(o) # 在图像边界填充一个像素,这是为了避免上采样后图像尺寸减小
  7. o = Conv2D(512, (3, 3), padding='valid')(o)# 输出特征图的尺寸较小,因为不进行填充
  8. o = BatchNormalization()(o)
  9. # 进行一次 UpSampling2D,此时 hw 变为原来的1/8
  10. # 26,26,512 -> 52,52,256
  11. o = UpSampling2D((2, 2))(o)
  12. o = ZeroPadding2D((1, 1))(o)
  13. o = Conv2D(256, (3, 3), padding='valid')(o)
  14. o = BatchNormalization()(o)
  15. # 进行一次 UpSampling2D,此时 hw 变为原来的 1/4
  16. # 52,52,256 -> 104,104,128
  17. for _ in range(n_up-2):
  18. o = UpSampling2D((2, 2))(o)
  19. o = ZeroPadding2D((1, 1))(o)
  20. o = Conv2D(128, (3, 3), padding='valid')(o)
  21. o = BatchNormalization()(o)
  22. # 进行一次 UpSampling2D,此时 hw 变为原来的 1/2
  23. # 104,104,128 -> 208,208,64
  24. o = UpSampling2D((2, 2))(o)
  25. o = ZeroPadding2D((1, 1))(o)
  26. o = Conv2D(64, (3, 3), padding='valid')(o)
  27. o = BatchNormalization()(o)
  28. # 此时输出为 h_input/2, w_input/2, nclasses
  29. # 208,208,3
  30. o = Conv2D(n_classes, (3, 3), padding='same')(o)
  31. return o
'
运行

3.3 VGG16-SegNet 模型搭建

将编码器与解码器连接在一起,编码器通过多个卷积层和池化层逐渐减小特征图的空间分辨率,同时提取抽象的语义特征。解码器解码器通常包括上采样层,通过逐步上采样将特征图的分辨率增加,同时进行一些操作以恢复细节和位置信息。最终的输出是一个与输入图像具有相同尺寸的分割图。

最终采用 Softmax 计算像素类别概率进行分类。

主体如下图所示:

  1. # SegNet 模型的构建函数
  2. def _segnet(n_classes, encoder, input_height=416, input_width=416, encoder_level=3):
  3. # encoder 通过主干网络
  4. img_input, levels = encoder(input_height=input_height, input_width=input_width)
  5. # 获取 hw 压缩四次后的结果
  6. feat = levels[encoder_level]
  7. # 将特征传入 segnet 网络
  8. o = segnet_decoder(feat, n_classes, n_up=3)
  9. # 将结果进行 reshape,将其变成一维的形式,以准备进行 Softmax 操作
  10. o = Reshape((int(input_height / 2) * int(input_width / 2), -1))(o)
  11. # 将每个像素的得分映射到概率分布,表示图像中每个位置属于每个类别的概率。
  12. o = Softmax()(o)
  13. model = Model(img_input, o)
  14. return model
  15. # 构建一个基于 ConvNet 编码器和 SegNet 解码器的图像分割模型
  16. def convnet_segnet(n_classes, input_height=416, input_width=416, encoder_level=3):
  17. model = _segnet(n_classes, get_convnet_encoder, input_height=input_height, input_width=input_width, encoder_level=encoder_level)
  18. model.model_name = "convnet_segnet"
  19. return model
  20. model = convnet_segnet(n_classes=3, input_height=416, input_width=416, encoder_level=3)
  21. model.summary() # 打印模型摘要

三、模型训练

VGG介绍: VGG 是一种深度卷积神经网络,由牛津大学视觉几何组(Visual Geometry Group)在 2014 年提出。它是由多个卷积层和池化层组成的深度神经网络,具有很强的图像分类能力,特别是在图像识别领域,取得了很好的成果。这里我们将把这个网络迁移到本项目中。

  • 使用 VGG16 进行迁移学习
  • 将 VGG16 权重加载加入编码器部分,使其可以利用已经训练好的权重进行特征提取,帮助节省训练时间,并且可以有更好的提取效果。
  • 提高模型的泛化能力和性能。
  1. HEIGHT = 416
  2. WIDTH = 416
  3. NCLASSES = 3
  4. ckpt_dir = "./ckpt/"
  5. def train():
  6. # 下载预训练权重,如果有则可直接调用
  7. model = convnet_segnet(n_classes=NCLASSES, input_height=HEIGHT, input_width=WIDTH)
  8. WEIGHTS_PATH_NO_TOP = 'https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5'
  9. weights_path = get_file('vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5', WEIGHTS_PATH_NO_TOP, cache_subdir='models')
  10. model.load_weights(weights_path, by_name=True)
  11. # 打开数据集的txt
  12. with open("./datasets/Segmentation/train_and_val.txt", "r") as f:
  13. lines = f.readlines()
  14. # 打乱的数据更有利于训练,90% 用于训练,10% 用于估计。
  15. np.random.seed(10101)
  16. np.random.shuffle(lines)
  17. np.random.seed(None)
  18. num_val = int(len(lines) * 0.1)
  19. num_train = len(lines) - num_val
  20. # checkpoint 用于设置权值保存的细节,period 用于修改多少 epoch 保存一次
  21. checkpoint = ModelCheckpoint(ckpt_dir + 'ep{epoch:03d}-loss{loss:.3f}-val_loss{val_loss:.3f}.h5',
  22. monitor='val_loss', save_weights_only=True, save_best_only=False, period=2)
  23. # 当损失值停滞不前时,动态地减小学习率以提高模型的收敛性
  24. reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=3, verbose=1)
  25. # 损失值在一定 epoch 数内没有明显的改善,就触发早停操作,以避免过度拟合,提前结束训练。
  26. early_stopping = EarlyStopping(monitor='val_loss', min_delta=0, patience=10, verbose=1)
  27. trainable_layer = 10
  28. for i in range(trainable_layer):
  29. model.layers[i].trainable = False
  30. print('freeze the first {} layers of total {} layers.'.format(trainable_layer, len(model.layers)))
  31. if True:
  32. lr = 1e-3
  33. batch_size = 4
  34. model.compile(loss='categorical_crossentropy',
  35. optimizer=Adam(lr=lr),
  36. metrics=['accuracy'])
  37. print('Train on {} samples, val on {} samples, with batch size {}.'.format(num_train, num_val, batch_size))
  38. history = model.fit(generate_arrays_from_file(lines[:num_train], batch_size),
  39. steps_per_epoch=max(1, num_train//batch_size),
  40. validation_data=generate_arrays_from_file(lines[num_train:], batch_size),
  41. validation_steps=max(1, num_val//batch_size),
  42. epochs=20,
  43. callbacks=[checkpoint, reduce_lr, early_stopping])
  44. return history
  45. history = train()

四、可视化训练结果

经过 20 轮的训练后,基于下方的 "loss/acc" 的可视化图,可以看出训练集准确率能达到 83 %验证集准确率能达到 79 %训练集损失率最低达到 40%验证集损失率最低达到 49% ,可见网络模型的性能良好。

  1. def plot_training_history(history):
  2. plt.figure(figsize=(7, 4))
  3. plt.plot(history.history['accuracy'], color='green', label='train_acc') # 训练集准确率
  4. plt.plot(history.history['val_accuracy'], color='blue', label='val_acc') # 验证集准确率
  5. plt.plot(history.history['loss'], color='orange', label='train_loss') # 训练集损失率
  6. plt.plot(history.history['val_loss'], color='red', label='val_loss') # 验证集损失率
  7. plt.title('Vgg16_Segnet Model')
  8. plt.xlabel('Epochs', fontsize=12)
  9. plt.ylabel('loss/acc', fontsize=12)
  10. plt.legend(fontsize=11)
  11. plt.ylim(0, 2) # 设置纵坐标范围为 0-2
  12. plt.show()
  13. plot_training_history(history)


五、模型检测

在上述训练中,我们定义了三个类别分别为 cat、dog、blackgroup,在接下来检测过程当中,我们将分别将待检测图片转化为上述构建模型所需形式,带入已经训练好的模型进行像素值类别判断,并且赋予其类别颜色,这里背景颜色为黑色,猫的颜色为红色狗的颜色为绿色

  1. # 模型检测
  2. if __name__ == "__main__":
  3. class_colors = [[0, 0, 0], [0, 255, 0],[255,0,0]]
  4. HEIGHT = 416
  5. WIDTH = 416
  6. NCLASSES = 3
  7. model = convnet_segnet(n_classes=NCLASSES, input_height=HEIGHT, input_width=WIDTH)
  8. model_path = "./ckpt/ep020-loss0.387-val_loss0.496.h5"
  9. model.load_weights(model_path)
  10. test_dir = "./datasets/JPEGImage/test/"
  11. test_seg_dir = "./datasets/JPEGImage/test_seg/"
  12. test_seg_img_dir = "./datasets/JPEGImage/test_seg_img/"
  13. # 对 test 文件夹进行一个遍历
  14. imgs = os.listdir(test_dir)
  15. for jpg in imgs:
  16. # 打开 imgs 文件夹里面的每一个图片
  17. img = Image.open(test_dir + jpg)
  18. old_img = copy.deepcopy(img)
  19. orininal_h = np.array(img).shape[0]
  20. orininal_w = np.array(img).shape[1]
  21. # 对输入进来的每一个图片进行 Resize
  22. # resize 成 [HEIGHT, WIDTH, 3]
  23. img = img.resize((WIDTH, HEIGHT), Image.BICUBIC)
  24. img = np.array(img) / 255
  25. img = img.reshape(-1, HEIGHT, WIDTH, 3)
  26. # 将图像输入到网络当中进行预测
  27. pr = model.predict(img)[0]
  28. pr = pr.reshape((int(HEIGHT / 2), int(WIDTH / 2), NCLASSES)).argmax(axis=-1)
  29. # 创建一副新图,并根据每个像素点的种类赋予颜色
  30. seg_img = np.zeros((int(HEIGHT / 2), int(WIDTH / 2), 3))
  31. for c in range(NCLASSES):
  32. seg_img[:, :, 0] += ((pr[:, :] == c) * class_colors[c][0]).astype('uint8')
  33. seg_img[:, :, 1] += ((pr[:, :] == c) * class_colors[c][1]).astype('uint8')
  34. seg_img[:, :, 2] += ((pr[:, :] == c) * class_colors[c][2]).astype('uint8')
  35. seg_img = Image.fromarray(np.uint8(seg_img)).resize((orininal_w, orininal_h)) # 将数组转化为图像
  36. seg_img.save(test_seg_dir + jpg)
  37. image = Image.blend(old_img, seg_img, 0.5)
  38. image.save(test_seg_img_dir + jpg)
  39. # 定义读取文件夹图像函数
  40. def display_image_collage(folder_path, rows, columns):
  41. # 获取文件夹下所有图片文件
  42. image_files = [f for f in os.listdir(folder_path) if f.endswith('.jpg') or f.endswith('.png')]
  43. # 计算每个图像的宽度和高度
  44. image_width, image_height = Image.open(os.path.join(folder_path, image_files[0])).size
  45. # 创建一个新的大图像
  46. output_image = Image.new('RGB', (columns * image_width, rows * image_height))
  47. # 遍历图像文件并将其粘贴到大图像中
  48. for i, image_file in enumerate(image_files):
  49. image_path = os.path.join(folder_path, image_file)
  50. image = Image.open(image_path)
  51. row = i // columns
  52. col = i % columns
  53. output_image.paste(image, (col * image_width, row * image_height))
  54. display(output_image)

语义分割的预测结果如下图:


六、项目总结

在该项目当中,采用 VGG16 与 SegNet 相结合的方式,利用迁移学习,将已经训练好的权重文件加载到自己所搭建的网络当中进行特征提取,这帮助我们大大节省了训练时间,并且可以提高模型的泛化能力与性能。

  • 不足之处:训练准确率不太高,后续我将继续改进。
  • 将采用其他网络进行迁移学习,几者对比学习。

七、脚本文件

1. json_to_png.py

  1. import json
  2. import os
  3. import os.path as osp
  4. import sys
  5. import PIL.Image
  6. import yaml
  7. from labelme import utils
  8. def main():
  9. # JSON 文件夹路径,包含多个 JSON 格式文件
  10. json_file = "./datasets/Annotations"
  11. # 获取 JSON 文件列表
  12. count = os.listdir(json_file)
  13. # 遍历 JSON 文件列表
  14. for i in range(0, len(count)):
  15. # 拼接 JSON 文件路径
  16. path = os.path.join(json_file, count[i]) # ./datasets/Annotations/image00005.json
  17. # 判断路径是否为文件
  18. if os.path.isfile(path):
  19. # 读取 JSON 文件数据
  20. data = json.load(open(path))
  21. # 生成保存文件名,将点替换为下划线
  22. save_file_name = osp.basename(path).replace('.', '_') # image00001_json
  23. # 创建 labelme_json 文件夹路径
  24. labelme_json = os.path.join(json_file, 'labelme_json') # ./datasets/Annotations/labelme_json
  25. # 如果文件夹不存在,则创建
  26. if not osp.exists(labelme_json):
  27. os.mkdir(labelme_json)
  28. # 创建 labelme_json/image00001_json 文件夹路径
  29. out_dir = os.path.join(labelme_json, save_file_name)
  30. # 如果文件夹不存在,则创建
  31. if not osp.exists(out_dir):
  32. os.mkdir(out_dir)
  33. # 如果 JSON 文件中存在图像数据
  34. if data['imageData']:
  35. imageData = data['imageData']
  36. else:
  37. print("当前 json 文件没有查到 imageData")
  38. sys.exit()
  39. # 将 base64 编码的图像数据转换为数组
  40. img = utils.img_b64_to_arr(imageData)
  41. # 定义标签名到标签值的映射关系
  42. label_name_to_value = {'_background_': 0, 'cat': 1, "dog": 2}
  43. # 遍历 JSON 文件中的标注形状
  44. for shape in data['shapes']:
  45. label_name = shape['label']
  46. # 如果标签名在映射关系中,则获取标签值
  47. if label_name in label_name_to_value:
  48. label_value = label_name_to_value[label_name]
  49. else:
  50. print(f"当前label_name:{label_name}不在已设定的label_name_to_value中")
  51. sys.exit()
  52. # label_values 必须是连续的
  53. label_values, label_names = [], []
  54. for ln, lv in sorted(label_name_to_value.items(), key=lambda x: x[1]):
  55. label_values.append(lv)
  56. label_names.append(ln)
  57. # 将标注形状转换为标签数组
  58. lbl_info = utils.shapes_to_label(img.shape, data['shapes'], label_name_to_value)
  59. lbl = lbl_info[0]
  60. # 保存图像,使用与 JSON 文件相同的文件名
  61. img_save_path = os.path.join(out_dir, save_file_name + '.png')
  62. lbl_save_path = os.path.join(out_dir, save_file_name + '_label.png')
  63. PIL.Image.fromarray(img).save(img_save_path)
  64. utils.lblsave(lbl_save_path, lbl)
  65. # 保存标签名到文件
  66. with open(os.path.join(out_dir, 'label_names.txt'), 'w') as f:
  67. for lbl_name in label_names:
  68. f.write(lbl_name + '\n')
  69. # 保存标签信息到 YAML 文件
  70. info = dict(label_names=label_names)
  71. with open(os.path.join(out_dir, 'info.yaml'), 'w') as f:
  72. yaml.safe_dump(info, f, default_flow_style=False)
  73. # 保存标签图像到 SegmentationClass 文件夹,以与 JSON 文件一一对应
  74. segmentation_class_folder = os.path.join(os.path.dirname(json_file), 'SegmentationClass')
  75. # 如果文件夹不存在,则创建
  76. if not osp.exists(segmentation_class_folder):
  77. os.mkdir(segmentation_class_folder)
  78. # 保存标签图像到 SegmentationClass 文件夹,以与 JSON 文件一一对应
  79. lbl_save_path = os.path.join(segmentation_class_folder, f"{save_file_name[:-5]}.png")
  80. utils.lblsave(lbl_save_path, lbl)
  81. print('Saved to: %s' % out_dir)
  82. if __name__ == '__main__':
  83. main()

2. train_to_txt.py

  1. # 指定图片文件夹路径
  2. folder_path = "./datasets/JPEGImage/train"
  3. # 输出文本文件路径
  4. output_file_path = "datasets/Segmentation/train_and_val.txt"
  5. # 遍历文件夹中的所有文件
  6. with open(output_file_path, 'w') as output_file:
  7. # 遍历编号从 0 到 499
  8. for number in range(500):
  9. # 构建原始文件名
  10. original_filename = f"{number}.jpg"
  11. # 构建新文件名
  12. new_filename = f"{number}.png"
  13. # 写入文本文件
  14. output_file.write(f"{original_filename};{new_filename}\n")
  15. print("生成文件列表完成")

八、完整代码

  1. #!/usr/bin/env python
  2. # -*- coding:utf-8 -*-
  3. # 一、导入必要库
  4. # 导入必要的库(numpy、matplotlib.pyplot、keras 等),为后续的图像处理做准备。
  5. import os
  6. import copy
  7. import numpy as np
  8. import matplotlib.pyplot as plt
  9. from IPython.display import display
  10. from PIL import Image
  11. from keras.callbacks import EarlyStopping, ModelCheckpoint, ReduceLROnPlateau
  12. from keras.layers import *
  13. from keras.models import *
  14. from keras.optimizers import Adam
  15. from keras.utils.data_utils import get_file
  16. # 二、数据集准备
  17. # 2.1 json 转换成 png:见 json_to_png.py
  18. # 2.2 生成 jpg 图片和 mask 标签的名称文本:见 train_to_txt.py
  19. # 2.3 读取部分图片查看像素值
  20. def values(image_path):
  21. # 打开图像
  22. image = Image.open(image_path)
  23. # 获取图像的像素数据
  24. pixels = list(image.getdata())
  25. # 使用集合来存储唯一的像素值
  26. unique_pixels = set(pixels)
  27. # 打印每个唯一像素的RGB值
  28. for pixel_value in unique_pixels:
  29. print(f"去重后像素值: {pixel_value}")
  30. image_path = "./datasets/SegmentationClass/467.png"
  31. values(image_path)
  32. # 2.4 图片标签处理
  33. def generate_arrays_from_file(lines, batch_size):
  34. n = len(lines)
  35. i = 0
  36. while 1:
  37. X_train = []
  38. Y_train = []
  39. for _ in range(batch_size):
  40. if i == 0:
  41. np.random.shuffle(lines) # 对数据进行随机排序,确保每个训练周期数据的顺序都是随机的。
  42. # 读取输入图片并进行归一化和 resize
  43. name = lines[i].split(';')[0]
  44. img = Image.open("./datasets/JPEGImage/train/" + name)
  45. img = img.resize((WIDTH, HEIGHT), Image.BICUBIC)
  46. img = np.array(img) / 255
  47. X_train.append(img)
  48. # 读取标签图片并进行归一化和 resize
  49. name = lines[i].split(';')[1].split()[0]
  50. label = Image.open("./datasets/SegmentationClass/" + name)
  51. # 通过将标签图像的大小调整为输入图像的一半,可以在减小计算开销的同时保留相对较高的语义信息。
  52. label = label.resize((int(WIDTH / 2), int(HEIGHT / 2)), Image.NEAREST)
  53. if len(np.shape(label)) == 3: # 判断标签是不是彩色的,如果是就变为灰度图像
  54. label = np.array(label)[:, :, 0]
  55. label = np.reshape(np.array(label), [-1]) # 确保标签数据以一维形式被提供给后续的处理步骤。
  56. one_hot_label = np.eye(NCLASSES)[np.array(label, np.int32)]
  57. Y_train.append(one_hot_label)
  58. i = (i + 1) % n
  59. yield np.array(X_train), np.array(Y_train)
  60. # 三、模型构建
  61. # 3.1 编码器搭建
  62. def get_convnet_encoder(input_height=416, input_width=416):
  63. img_input = Input(shape=(input_height, input_width, 3))
  64. # 416,416,3 -> 208,208,64
  65. x = Conv2D(64, (3, 3), activation='relu', padding='same', name='block1_conv1')(img_input)
  66. x = Conv2D(64, (3, 3), activation='relu', padding='same', name='block1_conv2')(x)
  67. x = MaxPooling2D((2, 2), strides=(2, 2), name='block1_pool')(x)
  68. f1 = x
  69. # 208,208,64 -> 104,104,128
  70. x = Conv2D(128, (3, 3), activation='relu', padding='same', name='block2_conv1')(x)
  71. x = Conv2D(128, (3, 3), activation='relu', padding='same', name='block2_conv2')(x)
  72. x = MaxPooling2D((2, 2), strides=(2, 2), name='block2_pool')(x)
  73. f2 = x
  74. # 104,104,128 -> 52,52,256
  75. x = Conv2D(256, (3, 3), activation='relu', padding='same', name='block3_conv1')(x)
  76. x = Conv2D(256, (3, 3), activation='relu', padding='same', name='block3_conv2')(x)
  77. x = Conv2D(256, (3, 3), activation='relu', padding='same', name='block3_conv3')(x)
  78. x = MaxPooling2D((2, 2), strides=(2, 2), name='block3_pool')(x)
  79. f3 = x
  80. # 52,52,256 -> 26,26,512
  81. x = Conv2D(512, (3, 3), activation='relu', padding='same', name='block4_conv1')(x)
  82. x = Conv2D(512, (3, 3), activation='relu', padding='same', name='block4_conv2')(x)
  83. x = Conv2D(512, (3, 3), activation='relu', padding='same', name='block4_conv3')(x)
  84. x = MaxPooling2D((2, 2), strides=(2, 2), name='block4_pool')(x)
  85. f4 = x
  86. return img_input, [f1, f2, f3, f4]
  87. # 3.2 解码器搭建
  88. # 解码器的目标是生成与输入数据相似的输出
  89. def segnet_decoder(f, n_classes, n_up=3):
  90. assert n_up >= 2
  91. o = f
  92. # 26,26,512 -> 26,26,512
  93. o = ZeroPadding2D((1, 1))(o) # 在图像边界填充一个像素,这是为了避免上采样后图像尺寸减小
  94. o = Conv2D(512, (3, 3), padding='valid')(o)# 输出特征图的尺寸较小,因为不进行填充
  95. o = BatchNormalization()(o)
  96. # 进行一次 UpSampling2D,此时 hw 变为原来的 1/8
  97. # 26,26,512 -> 52,52,256
  98. o = UpSampling2D((2, 2))(o)
  99. o = ZeroPadding2D((1, 1))(o)
  100. o = Conv2D(256, (3, 3), padding='valid')(o)
  101. o = BatchNormalization()(o)
  102. # 进行一次 UpSampling2D,此时 hw 变为原来的 1/4
  103. # 52,52,256 -> 104,104,128
  104. for _ in range(n_up-2):
  105. o = UpSampling2D((2, 2))(o)
  106. o = ZeroPadding2D((1, 1))(o)
  107. o = Conv2D(128, (3, 3), padding='valid')(o)
  108. o = BatchNormalization()(o)
  109. # 进行一次 UpSampling2D,此时 hw 变为原来的 1/2
  110. # 104,104,128 -> 208,208,64
  111. o = UpSampling2D((2, 2))(o)
  112. o = ZeroPadding2D((1, 1))(o)
  113. o = Conv2D(64, (3, 3), padding='valid')(o)
  114. o = BatchNormalization()(o)
  115. # 此时输出为 h_input/2, w_input/2, nclasses
  116. # 208,208,3
  117. o = Conv2D(n_classes, (3, 3), padding='same')(o)
  118. return o
  119. # 3.3 SegNet 模型搭建
  120. # SegNet 模型的构建函数
  121. def _segnet(n_classes, encoder, input_height=416, input_width=416, encoder_level=3):
  122. # encoder 通过主干网络
  123. img_input, levels = encoder(input_height=input_height, input_width=input_width)
  124. # 获取 hw 压缩四次后的结果
  125. feat = levels[encoder_level]
  126. # 将特征传入 segnet 网络
  127. o = segnet_decoder(feat, n_classes, n_up=3)
  128. # 将结果进行 reshape,将其变成一维的形式,以准备进行 Softmax 操作
  129. o = Reshape((int(input_height / 2) * int(input_width / 2), -1))(o)
  130. # 将每个像素的得分映射到概率分布,表示图像中每个位置属于每个类别的概率。
  131. o = Softmax()(o)
  132. model = Model(img_input, o)
  133. return model
  134. # 构建一个基于 ConvNet 编码器和 SegNet 解码器的图像分割模型
  135. def convnet_segnet(n_classes, input_height=416, input_width=416, encoder_level=3):
  136. model = _segnet(n_classes, get_convnet_encoder, input_height=input_height, input_width=input_width, encoder_level=encoder_level)
  137. model.model_name = "convnet_segnet"
  138. return model
  139. model = convnet_segnet(n_classes=3, input_height=416, input_width=416, encoder_level=3)
  140. model.summary() # 打印模型摘要
  141. # 四、模型训练
  142. HEIGHT = 416
  143. WIDTH = 416
  144. NCLASSES = 3
  145. ckpt_dir = "./ckpt/"
  146. def train():
  147. # 下载预训练权重,如果有则可直接调用
  148. model = convnet_segnet(n_classes=NCLASSES, input_height=HEIGHT, input_width=WIDTH)
  149. WEIGHTS_PATH_NO_TOP = 'https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5'
  150. weights_path = get_file('vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5', WEIGHTS_PATH_NO_TOP, cache_subdir='models')
  151. model.load_weights(weights_path, by_name=True)
  152. # 打开数据集的txt
  153. with open("./datasets/Segmentation/train_and_val.txt", "r") as f:
  154. lines = f.readlines()
  155. # 打乱的数据更有利于训练,90% 用于训练,10% 用于估计。
  156. np.random.seed(10101)
  157. np.random.shuffle(lines)
  158. np.random.seed(None)
  159. num_val = int(len(lines) * 0.1)
  160. num_train = len(lines) - num_val
  161. # checkpoint用于设置权值保存的细节,period 用于修改多少 epoch 保存一次
  162. checkpoint = ModelCheckpoint(ckpt_dir + 'ep{epoch:03d}-loss{loss:.3f}-val_loss{val_loss:.3f}.h5',
  163. monitor='val_loss', save_weights_only=True, save_best_only=False, period=2)
  164. # 当损失值停滞不前时,动态地减小学习率以提高模型的收敛性
  165. reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=3, verbose=1)
  166. # 损失值在一定 epoch 数内没有明显的改善,就触发早停操作,以避免过度拟合,提前结束训练。
  167. early_stopping = EarlyStopping(monitor='val_loss', min_delta=0, patience=10, verbose=1)
  168. trainable_layer = 10
  169. for i in range(trainable_layer):
  170. model.layers[i].trainable = False
  171. print('freeze the first {} layers of total {} layers.'.format(trainable_layer, len(model.layers)))
  172. if True:
  173. lr = 1e-3
  174. batch_size = 8
  175. model.compile(loss='categorical_crossentropy',
  176. optimizer=Adam(lr=lr),
  177. metrics=['accuracy'])
  178. print('Train on {} samples, val on {} samples, with batch size {}.'.format(num_train, num_val, batch_size))
  179. history = model.fit_generator(generate_arrays_from_file(lines[:num_train], batch_size),
  180. steps_per_epoch=max(1, num_train//batch_size),
  181. validation_data=generate_arrays_from_file(lines[num_train:], batch_size),
  182. validation_steps=max(1, num_val//batch_size),
  183. epochs=2,
  184. initial_epoch=0,
  185. callbacks=[checkpoint, reduce_lr, early_stopping])
  186. return history
  187. history = train()
  188. # 五、可视化训练结果
  189. def plot_training_history(history):
  190. plt.figure(figsize=(8, 5))
  191. plt.plot(history.history['accuracy'], color='green', label='train_acc') # 训练集准确率
  192. plt.plot(history.history['val_accuracy'], color='blue', label='val_acc') # 验证集准确率
  193. plt.plot(history.history['loss'], color='orange', label='train_loss') # 训练集损失率
  194. plt.plot(history.history['val_loss'], color='red', label='val_loss') # 验证集损失率
  195. plt.title('Vgg16_Segnet Model')
  196. plt.xlabel('Epochs', fontsize=12)
  197. plt.ylabel('loss/acc', fontsize=12)
  198. plt.legend(fontsize=11)
  199. plt.ylim(0, 1) # 设置纵坐标范围为 0-1
  200. plt.show()
  201. plot_training_history(history)
  202. # 六、模型检测
  203. # 定义测试集及测试结果路径
  204. test_dir = "./datasets/JPEGImage/test/"
  205. test_seg_dir = "./datasets/JPEGImage/test_seg/"
  206. test_seg_img_dir = "./datasets/JPEGImage/test_seg_img/"
  207. if __name__ == "__main__":
  208. class_colors = [[0, 0, 0], [0, 255, 0],[255,0,0]]
  209. HEIGHT = 416
  210. WIDTH = 416
  211. NCLASSES = 3
  212. model = convnet_segnet(n_classes=NCLASSES, input_height=HEIGHT, input_width=WIDTH)
  213. model_path = "./ckpt/ckptep008-loss0.604-val_loss0.495.h5"
  214. model.load_weights(model_path, by_name=True)
  215. # 对 test 文件夹进行一个遍历
  216. imgs = os.listdir(test_dir)
  217. for jpg in imgs:
  218. # 打开 imgs 文件夹里面的每一个图片
  219. img = Image.open(test_dir + jpg)
  220. old_img = copy.deepcopy(img)
  221. orininal_h = np.array(img).shape[0]
  222. orininal_w = np.array(img).shape[1]
  223. # 对输入进来的每一个图片进行 Resize
  224. # resize 成 [HEIGHT, WIDTH, 3]
  225. img = img.resize((WIDTH, HEIGHT), Image.BICUBIC)
  226. img = np.array(img) / 255
  227. img = img.reshape(-1, HEIGHT, WIDTH, 3)
  228. # 将图像输入到网络当中进行预测
  229. pr = model.predict(img)[0]
  230. pr = pr.reshape((int(HEIGHT / 2), int(WIDTH / 2), NCLASSES)).argmax(axis=-1)
  231. # 创建一副新图,并根据每个像素点的种类赋予颜色
  232. seg_img = np.zeros((int(HEIGHT / 2), int(WIDTH / 2), 3))
  233. for c in range(NCLASSES):
  234. seg_img[:, :, 0] += ((pr[:, :] == c) * class_colors[c][0]).astype('uint8')
  235. seg_img[:, :, 1] += ((pr[:, :] == c) * class_colors[c][1]).astype('uint8')
  236. seg_img[:, :, 2] += ((pr[:, :] == c) * class_colors[c][2]).astype('uint8')
  237. seg_img = Image.fromarray(np.uint8(seg_img)).resize((orininal_w, orininal_h)) # 将数组转化为图像
  238. seg_img.save(test_seg_dir + jpg)
  239. image = Image.blend(old_img, seg_img, 0.5)
  240. image.save(test_seg_img_dir + jpg)
  241. # 定义读取文件夹图像函数
  242. def display_image_collage(folder_path, rows, columns):
  243. # 获取文件夹下所有图片文件
  244. image_files = [f for f in os.listdir(folder_path) if f.endswith('.jpg') or f.endswith('.png')]
  245. # 计算每个图像的宽度和高度
  246. image_width, image_height = Image.open(os.path.join(folder_path, image_files[0])).size
  247. # 创建一个新的大图像
  248. output_image = Image.new('RGB', (columns * image_width, rows * image_height))
  249. # 遍历图像文件并将其粘贴到大图像中
  250. for i, image_file in enumerate(image_files):
  251. image_path = os.path.join(folder_path, image_file)
  252. image = Image.open(image_path)
  253. row = i // columns
  254. col = i % columns
  255. output_image.paste(image, (col * image_width, row * image_height))
  256. display(output_image)
  257. display_image_collage(test_dir, 2, 3)
  258. display_image_collage(test_seg_dir , 2, 3)
  259. display_image_collage(test_seg_img_dir, 2, 3)
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/957649
推荐阅读
相关标签
  

闽ICP备14008679号