当前位置:   article > 正文

语义分割的几种网络模型_语义分割最新模型

语义分割最新模型

Deeplabv3+网络

Deeplabv3+网络

简介

deeplabv3+是现今性能最好的语义分割模型之一。图像分割是计算机视觉中除了分类和检测外的另一项基本任务,它意味着要将图片根据内容分割成不同的块。相比图像分类和检测,分割是一项更精细的工作,因为需要对每个像素点分类,如下图的街景分割,由于对每个像素点都分类,物体的轮廓是精准勾勒的,而不是像检测那样给出边界框。

主要工作

  1. 原DeepLabv3当作encoder,添加decoder得到新的模型(DeepLabv3+)。
  2. 把Xception和Depthwise separable convolution应用到Atrous Spatial Pyramid Pooling和decoder中。
  3. 深度可分离卷积(Depthwise separable convolution)。
  4. epthwise convolution是在每个通道上独自的进行空间卷积
    pointwise convolution是利用1x1卷积核组合前面depthwise convolution得到的特征
    tensorflow支持atrous版的depthwise convolution。
    为什么说要用它呢?
    因为它能够保持性能的同时大大减少计算量,举个例子:
    假若输入2通道的特征,输出3通道特征,卷积核大小为3x3
    正常版卷积:
    参数量=2x(3x3)x3=54
    深度可分离卷积:
    参数量=2x3x3+2x1x1x3=24
    注意:第一部分为depthwise convolution(2x3x3),第二部分为
    pointwise convolution(2x1x1x3)

网络整体结构

  1. Encoder
    Encoder就是原来的DeepLabv3,注意点有2点:
输入尺寸与输出尺寸比(output stride = 16),最后一个stage的膨胀率rate为2
Atrous Spatial Pyramid Pooling module(ASPP)有四个不同的rate,额外一个全局平均池化

Decoder
明显看到先把encoder的结果上采样4倍,然后与resnet中下采样前的Conv2特征concat一起,再进行3x3的卷积,最后上采样4倍得到最终结果
需要注意点:

融合低层次信息前,先进行1x1的卷积,目的是降通道(例如有512个通道,而encoder结果只有256个通道)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

主干网络

作者在MSRA基础上作了些修改:

更深的Xception结构,并不修改entry flow network结构
所有的max pooling结构被stride=2的深度可分离卷积代替

每个3x3的depthwise convolution都跟BN和Relu
改进后的结构如下:
  • 1
  • 2
  • 3
  • 4
  • 5

实验
1.decoder结构上的探索

训练时上采样输出结果比下采样真值提升1.2%

低层次信息通道数多少个比较合适(1x1卷积的通道数)
哪个底层的细节信息较好&3x3的卷积如何构成
验证了U-Net和SegNet类似的解码结构在此网络上并没有多少提升
  • 1
  • 2
  • 3
  • 4
  • 5
  1. Backbone为Resnet101的结果
  2. Backbone为Xception的结果
  3. 在Cityscapes数据集上
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/854133
推荐阅读
相关标签
  

闽ICP备14008679号