赞
踩
Deeplabv3+网络
deeplabv3+是现今性能最好的语义分割模型之一。图像分割是计算机视觉中除了分类和检测外的另一项基本任务,它意味着要将图片根据内容分割成不同的块。相比图像分类和检测,分割是一项更精细的工作,因为需要对每个像素点分类,如下图的街景分割,由于对每个像素点都分类,物体的轮廓是精准勾勒的,而不是像检测那样给出边界框。
网络整体结构
输入尺寸与输出尺寸比(output stride = 16),最后一个stage的膨胀率rate为2
Atrous Spatial Pyramid Pooling module(ASPP)有四个不同的rate,额外一个全局平均池化
Decoder
明显看到先把encoder的结果上采样4倍,然后与resnet中下采样前的Conv2特征concat一起,再进行3x3的卷积,最后上采样4倍得到最终结果
需要注意点:
融合低层次信息前,先进行1x1的卷积,目的是降通道(例如有512个通道,而encoder结果只有256个通道)
主干网络
作者在MSRA基础上作了些修改:
更深的Xception结构,并不修改entry flow network结构
所有的max pooling结构被stride=2的深度可分离卷积代替
每个3x3的depthwise convolution都跟BN和Relu
改进后的结构如下:
实验
1.decoder结构上的探索
训练时上采样输出结果比下采样真值提升1.2%
低层次信息通道数多少个比较合适(1x1卷积的通道数)
哪个底层的细节信息较好&3x3的卷积如何构成
验证了U-Net和SegNet类似的解码结构在此网络上并没有多少提升
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。