赞
踩
图像语义分割(semantic segmentation),从字面意思上理解就是让计算机根据图像的语义来进行分割,例如让计算机在输入下面左图的情况下,能够输出右图。语义在语音识别中指的是语音的意思,在图像领域,语义指的是图像的内容,对图片意思的理解,比如左图的语义就是三个人骑着三辆自行车;分割的意思是从像素的角度分割出图片中的不同对象,对原图中的每个像素都进行标注,比如右图中粉红色代表人,蓝色代表摩托车。
在深度学习应用到计算机视觉领域之前,人们使用 TextonForest 和 随机森林分类器进行语义分割。卷积神经网络(CNN)不仅对图像识别有所帮助,也对语义分割领域的发展起到巨大的促进作用。
语义分割任务最初流行的深度学习方法是图像块分类(patch classification),即利用像素周围的图像块对每一个像素进行独立的分类。使用图像块分类的主要原因是分类网络通常是全连接层(full connected layer),且要求固定尺寸的图像。
2014 年,加州大学伯克利分校的 Long 等人提出全卷积网络(FCN),这使得卷积神经网络无需全连接层即可进行密集的像素预测,CNN 从而得到普及。使用这种方法可生成任意大小的图像分割图,且该方法比图像块分类法要快上许多。之后,语义分割领域几乎所有先进方法都采用了该模型。
除了全连接层,使用卷积神经网络进行语义分割存在的另一个大问题是池化层。池化层不仅扩大感受野、聚合语境从而造成了位置信息的丢失。但是,语义分割要求类别图完全贴合,因此需要保留位置信息。本文将介绍两种不同结构来解决该问题。
编码器-解码器结构。编码器逐渐减少池化层的空间维度,解码器逐步修复物体的细节和空间维度。编码器和解码器之间通常存在快捷连接,因此能帮助解码器更好地修复目标的细节。U-Net 是这种方法中最常用的结构。
蓝色代表卷积和激活函数, 灰色代表复制, 红色代表下采样, 绿色代表上采样然后在卷积, conv 1X1代表核为1X1的卷积操作, 可以看出这个网络没有全连接,只有卷积和下采样. 这也是一个端到端的图像, 即输入是一幅图像, 输出也是一副图像。
4次上采样,4次下采样。卷积核大小都为3x3。在进行pooling的时候采用maxpooling并且保留了位置信息,使得在进行上采样的时候能够还原其位置信息。
在特征提取部分:
1、3*3的卷积操作,padding的策略是vaild,所以每次操作后featuremap的大小会减2。
2、经过了四次池化,共有五个尺度。
在上采样部分:
1、每次上采样(反卷积),featuremap大小*2
2、灰色箭头代表复制和剪切,每一次上采样,都与对应的特征提 取部分融合,融合前需要进行剪切。
3、最后一层用了1*1的卷积层做了分类。
4、最后输出是388*388的,和输入图像并不完全对应。
如上图所示,对输入图像的四周做了镜像操作,其输入图像的大小为572*572,整个网络越有20个卷积层,输出图像的大小小于输入图像的大小。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。