赞
踩
灰度值表示该像素的亮度,灰度值越大表示该像素的亮度越高,越小表示该像素的亮度越低,通常用0到255的整数来表示;
灰度特征就是利用灰度信息表示区域或者图像的特征,如计算图像的灰度的最大值、最小值、偏差、均值等,还可以算出灰灰度区域的面积和中心,相关算子有gray_features算子、min_max_gray算子、intensity算子、area_ceter_gray算子、select_gray算子等;
在图像分割的语境中,“作物”是指使用单一阈值分割具有多个目标的图像时出现的过分割现象。在这种情况下,多个对象被分割为单独的区域,这是不可取的。
如上图所示即为对数字的一种阈值分割方法。
优点:计算简单,效率较高;
缺点:只考虑像素点灰度值本身的特征,一般不考虑空间特征,因此对噪声比较敏感,鲁棒性不高;
关键:阈值的选择——若将智能遗传算法应用在阀值筛选上,选取能最优分割图像的阀值,这可能是基于阀值分割的图像分割法的发展趋势;
其中 R 代表整个正方形图像区域,P 代表逻辑词
优点:对复杂图像分割效果好;
缺点:算法复杂,计算量大;分裂有可能破怪区域的边界
基本思想:是把图像看作是测地学上的拓扑地貌,图像中每一点像素的灰度值表示该点的海拔高度,每一个局部极小值及其影响区域称为集水盆,而集水盆的边界则形成分水岭;
分水岭概念:通过模拟浸入过程来说明。在每一个局部极小值表面,刺穿一个小孔(怎么做到的?),然后把整个模型慢慢浸入水中,随着浸入的加深,每一个局部极小值的影响域慢慢向外扩展,在两个集水盆汇合处构筑大坝,即形成分水岭(就是反映了极小值的影响区域);
作用:分水岭对微弱边缘具有良好的响应,图像中的噪声、物体表面细微的灰度变化都有可能产生过度分割的现象,但是这也同时能够保证得到封闭连续边缘。同时,分水岭算法得到的封闭的集水盆也为分析图像的区域特征提供了可能;
介绍:通过检测包含不同区域的边缘来解决分割问题,是研究最多的方法之一;
基本思想:通常不同区域的边界上像素的灰度值变化比较剧烈,如果将图片从空间域通过傅里叶变换到频率域,边缘就对应着高频部分;
方法:按照处理的技术分为串行边缘检测和并行边缘检测:
串行边缘检测:要想确定当前像素点是否属于检测边缘上的一点,取决于先前像素的验证结果;
并行边缘检测:是一个像素点是否属于检测边缘高尚的一点取决于当前正在检测的像素点以及与该像素点的一些临近像素点;
并行微分算子法:利用相邻区域的像素值不连续的性质,采用一阶或者二阶导数来检测边缘点;
优缺点:
(1)边缘定位准确;
(2)速度快;
(3)不能保证边缘的连续性和封闭性;
(4)在高细节区域存在大量的碎边缘,难以形成一个大区域,但是又不宜将高细节区域分成小碎片;
由于上述的(3)(4)两个难点,边缘检测只能产生边缘点,而非完整意义上的图像分割过程——在边缘点信息获取到之后还需要后续的处理或者其他相关算法相结合才能完成分割任务;
在以后的研究当中,用于提取初始边缘点的自适应阈值选取、用于图像的层次分割的更大区域的选取以及如何确认重要边缘以去除假边缘将变得非常重要。
上图左图是传统的阈值分割方法,右边的图像就是利用小波变换的图像分割。
可以看出右图分割得到的边缘更加准确和清晰
通过反复的堆叠 33 的小型卷积核和 22 的最大池化层,成功的构建了 16~19 层深的卷积神经网络
为了解决梯度消失问题(随着深度出现),就出了ResNet模型。
该网络结构如下所示:
主要流程:先使用 selective search 算法提取 2000 个候选框(2),然后通过卷积网络对候选框进行串行的特征提取(3),再根据提取的特征使用 SVM 对候选框进行分类预测(4),最后使用回归方法对区域框进行修正;
这个模型主要就是针对R-CNN效率不高的问题来进行改进。其网络结构如下图所示:
(从提取特征开始,略掉了 region 的选择);
改进的地方:它是直接使用一个神经网络对整个图像进行特征提取,就省去了串行提取特征的时间;
接着使用一个 RoI Pooling Layer 在全图的特征图上摘取每一个 RoI 对应的特征,再通过 FC 进行分类和包围框的修正
就是把 selective search 算法换成了RPN,其网络结构如下图所示:
基于 Faster R-CNN 模型的一种新型的分割模型,它主要完成了三件事:目标检测,目标分类,像素级分割。
RNN能够运用到计算机视觉任务上。它是由LSTM块组成的网络,它来自序列数据的长期学习能力以及随着二序列保存记忆的能力使其能够面对计算机视觉任务。
在 ReSeg 中作者使用 RNN 去检索上下文信息,以此作为分割的一部分依据。
该模型将RNN一定程度上扩展到了多维空间领域,使之在图影处理上能有所表现。
CNN会通过丢失部分细节来得到更具特征的价值。但是此过程是不可逆的,而且有时候会导致图像分辨率太低,从而导致细节丢失等问题——通过上采样来补全一些丢失的信息,从而获得更准确的分割边界。
FCN:反卷积-升采样结构中,图片会先进性上采样(扩大像素);再进行卷积——通过学习获得权值。其结构如下图所示:
优缺点:
(1) FCN 对图像进行了像素级的分类,从而解决了语义级别的图像分割问题;
(2) FCN可以接受任意尺寸的输入图像,可以保留下原始输入图像中的空间信息;
(3) 得到的结果由于上采样的原因比较模糊和平滑,对图像中的细节不敏感;
(4) 对各个像素分别进行分类,没有充分考虑像素与像素的关系,缺乏空间一致性;
SetNet:旨在解决自动驾驶或者智能机器人的图像语义分割深度网络,它是基于FCN的,只是其编码-解码器略有不同,它的解码器中使用去池化来对特征图进行上采样,并在分各种保持高频细节的完整性;而编码器不使用全连接层,因此是 拥有较少参数的轻量级网络:
优缺点:
(1) 保存了高频部分的完整性;
(2) 网络不笨重,参数少,较为轻便;
(3) 对于分类的边界位置置信度较低;
(4) 对于难以分辨的类别,例如人与自行车,两者如果有相互重叠,不确定性会增加。
上面的两种网络结构就是基于反卷积/上采样的分割方法,尤其是FCN,这东西是具有开创意义的
FCN要先减小图片尺寸(卷积)然后再增大(上采样),这会使得有一些信息的丢失。该方法旨在恢复在深度卷积神经网络中下降的分辨率,从而获取更多的上下文信息。DeepLab:是结合了深度卷积神经网络和概率图模型的方法。
图 a 对应 3x3 的 1-dilated conv,它和普通的卷积操作是相同的;图 b 对应 3x3 的 2-dilated conv, 事迹卷积核的尺寸还是 3x3(红点),但是空洞为 1,其感受野能够达到 7x7;图 c 对应 3x3 的 4-dilated conv,其感受野已经达到了 15x15
——>在使用空洞卷积的情况下,加大了感受野,使每个卷积输出都包含了较大范围的信息
这样就解决了DCNN的几个关于分辨率的问题:内部数据结构丢失;空间曾计划信息丢失;小物体信息无法重建;
空洞卷积的问题:
(1) 网格效应加入我们仅仅多次叠加 dilation rate 2 的 3x3 的卷积核则会出现以下问题我们发现卷积核并不连续,也就是说并不是所有的像素都用来计算了,这样会丧失信息的连续性;
(2) 小物体信息处理不当:由于空洞卷积是拿来获取long-ranged information,所以对小物体的分割就不太行——基于特征增强的分割方法包括提取多尺度特征或者从一系列嵌套的区域中提取特征;
这是一种基于图像特征增强的图像分割方法,它通过对图像的特征进行增强,来提高图像分割的准确性。
该方法包括:提取多尺度特征或者从一系列嵌套的区域中提取特征。
图像分割的深度网络中,CNN经常应用在图像的 小方块 上,也就叫做以每个像素为中心的固定大小的卷积核——通过观察其周围的小区域来标记每个像素的分类;
而能够结合上下文信息的深度网络所得到的结果一般也会更好,不过这种情况的计算代价也很高——多尺度特征提取
SLIC(simple linear iterative cluster),一种 生成超像素 的算法。
FCN对关系和全局信息处理能力存在的问题:1.上下文推断能力不强;2.标签之间的关系处理不好;3.模型可能会忽略小的东西。
PSPNet(Pyramid Scene Parsing Network):一个具有层次全局优先级,包含不同子区域时间的不同尺度的信息,称之为金字塔池化模块:
该模块融合了 4 种不同金字塔尺度的特征,第一行红色是最粗糙的特征——全局池化生成单个 bin 输出,后面三行是不同尺度的池化特征。为了保证全局特征的权重,处理后的信息再通过卷积和上采样恢复到原始大小。
最终结果就是,在融合不同尺度的 feature 后,达到了语义和细节的融合,模型的性能表现提升很大。
为了捕捉多尺度特征,高层特征包含了更多的语义和更少的位置信息。结合多分辨率图像和多尺度特征描述符的优点,在不丢失分辨率的情况下提取图像中的全局和局部信息,这样就能在一定程度上提升网络的性能。
MRF(Marcov Random Field,马尔可夫随机场),其实是一种基于统计的图像分割算法;
吉布斯能量计算公式,但是不太清楚这是个啥。
能量函数:描述整个系统状态的一种测度,系统越有序或概率分布越集中,系统的能量越小。反之,系统越无序或趋于均匀分布,则系统的能量越大。能量函数的最小值,对应于系统的最稳定状态;
这里的第一项是一元势函数,此时只考虑当前像素的类别,不考虑其他像素的类别;
而第二项则代表二元势函数(pairwise potentials),也叫平滑项,它鼓励特征相似的像素具有一致的标签;
其中,二元势函数*可以定义为:
其中 k(m)为高斯核,写作:
该模型的一元势能包含了图像的形状,纹理,颜色和位置,二元势能使用了对比度敏感的的双核势能,而CRF的二元势函数一般是描述像素点与像素点之间的关系(使用该模型在图像中的所有像素对上建立点对势能从而实现极大地细化和分割)——鼓励相似像素分配相同的标签,而相差较大的像素分配不同标签
分割效果如下图所示:
可以看到它在精细边缘的分割比平常的分割方法要出色得多,而且文章中使用了另一种优化算法,使得本来需要及其大量运算的全连接条件随机场也能在很短的时间里给出不错的分割结果。
优缺点:
(1) 在精细部位的分割非常优秀;
(2) 充分考虑了像素点或者图片区域之间的上下文关系;
(3) 在粗略的分割中可能会消耗不必要的算力;
(4) 可以用来恢复细致的局部结构,但是相应的需要较高的代价
这是基于 FCN 的一种语义分割网络,适用于做医学图像的分割。它也分为上/下采样两个阶段,但网络结构中只有卷积层和池化层,没有全连接层。
较浅的高分辨率层用来解决像素定位的问题,较深的层用来解决像素分类的问题,从而可以实现图像语义级别的分割
不同:
(1) U-net 的上采样阶段与下采样阶段采用了相同数量层次的卷积操作,且使用 skip connection 结构将下采样层与上采样层相连,使得下采样层提取到的特征可以直接传递到上采样层,这使得 U-net 网络的像素定位更加准确,分割精度更高;
(2) 在训练过程中,U-net只需要一次训练,FCN 为达到较精确的 FCN-8s 结构需要三次训练,故 U-net 网络的训练效率也高于 FCN 网络;
其网络结构如下图所示:
蓝色箭头代表卷积和激活函数, 灰色箭头代表复制剪切操作, 红色箭头代表下采样, 绿色箭头代表反卷积,conv 1X1 代表卷积核为 1X1 的卷积操作。从图中可以看出,U-net 网络没有全连接层,只有卷积和下采样。U-net 可以对图像进行端到端的分割,即输入是一幅图像, 输出也是一幅图像
但是这个模型我之前读的文章是拿来做降水预测的。。。有空去看看他的后续发展吧;
传统的神经网络假定不同输入和输出之间是相互独立的,网络中不存在反馈连接,而 RNN 网络结构中至少包含一个反馈连接(自循环),即 假定当前输出不仅与当前输入有关,也与先前输出有关
—— RNN 适合于解决时间处理和顺序学习问题
在实际训练过程中,梯度消失的问题使得传统 RNN 在实际中很难处理长期依赖
——LSTM可以避免这种问题,从而学习到长期依赖关系;
RNN 可用于医学图像分割问题,也可以变成3D LSTM-RNN来对对脑部 MR 图像进行分割,用金字塔方式重新排列 MD-LSTM 中传统的长方体计算顺序,使得网络可以在 GPU 上并行训练,大大提高了网络训练效率,并在MRBrainS 挑战中取得了很好的分割结果…
有一些模型更像是U-net等不仅可以运用到本文所提及的医疗方面,更可以将其运用到降水预测等视频预测问题上。不过这些模型对于物体分割的要求好像更多的是精确度(分割细度?),这种要求可否运用到热带气旋上?感觉热带气旋一般都i是框框框出来的,不过也有框框大小的区别,这个还可以再看看
我现在的想法就是运用这些模型来对云团进行检测,然后分析出其中可能为热带气旋的云团,从而进行轨迹预测等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。