赞
踩
源自:电子学报 作者:罗会兰 袁璞 童康
显著性目标检测旨在对图像中最显著的对象进行检测和分割,是计算机视觉任务中重要的预处理步骤之一,且在信息检索、公共安全等领域均有广泛的应用.本文对近期基于深度学习的显著性目标检测模型进行了系统综述,从检测粒度的角度出发,综述了将深度学习引入显著性目标检测领域之后的研究成果.首先,从三个方面对显著性目标检测方法进行了论述:稀疏检测方法,密集检测方法以及弱监督学习下的显著性目标检测方法.然后,简要介绍了用于显著性目标检测研究的主流数据集和常用性能评价指标,并对各类主流模型在三个使用最广泛的数据集上进行了性能比较分析.最后,本文分析了显著性目标检测领域目前存在的问题,并对今后可能的研究趋势进行了展望.
显著性目标检测 ; 深度学习 ; 卷积神经网络 ; 视觉显著性 ; 弱监督学习 ; 计算机视觉任务
1998年ltti等人[1]基于对灵长类动物视觉系统的模拟提出了一种视觉注意力机制,由此开启了计算机视觉领域对于显著性检测的研究.早期的显著性检测大多将研究重心放在人眼注意点的检测上,即检测图像中最吸引人类眼光的地方,检测结果为一组光亮点组成的感兴趣区域.随着计算机视觉的进一步发展,单一的视觉注意点检测逐渐难以满足其需求.因此,研究者提出将显著性检测看作是一个图像分割问题,将图像的显著性目标区域从背景中分割出来,并将该任务称为显著性目标检测(Salient Object Detection, SOD).
作为重要的图像预处理步骤,显著性目标检测广泛应用在各类计算机视觉任务中:利用显著性内容作为图像描述的指导[3, 4];采用显著性检测指导对高分辨率的卫星图像进行无监督特征学习下的场景分类[5];将无监督学习转化为多实例学习,实现定位和分类的任务[6];提供对象级线索从而帮助无监督视频对象分割[7];为目标检测任务提供图像的显著性轮廓信息[8];用于构建测试视觉问答模型性能的数据集[9]等等.
显著性目标检测领域的发展十分迅速,早期的综述论文只对一些传统方法进行了归纳[10, 11].近年来出现了一些论述前沿方法的文献,如文献[12]综述了阈值化分割在显著性目标检测中的应用,并讨论了一些虽还没被采用但很有潜力的阈值方法.文献[13]把显著性目标检测和类别目标检测并在一起进行了综述,介绍了目标检测中常用的模型和方法.文献[14]以时间顺序描述了显著性目标检测模型的演变,并简要介绍了显著性目标检测的起源和关键性技术.文献[15]根据特征提取策略的不同,综述了传统学习和深度学习下的显著性目标检测模型.文献[16]围绕网络架构、监督方式、学习范式等角度概述了基于深度学习的显著性目标检测模型,并通过研究噪声扰动和对抗攻击对算法和模型的影响,为检测模型的实际应用提供了可用建议.
不同于以上文献综述,本文从检测粒度的角度出发,综述了将深度学习引入显著性目标检测领域之后的研究成果,并将这些显著性目标检测方法分为三大类:稀疏检测方法,密集检测方法及弱监督学习方法.本文的稀疏与密集检测是以网络模型对图像的处理单元不同而定义的,前者的处理单元通常是超像素或候选对象等非独立像素的单元,后者的处理单元则是单个的像素[17].这两种检测方法都需要大量的人工标注,弱监督方法的提出减轻了模型对人工标注数据集的依赖,本文也对这类方法做了详尽综述,并根据训练样本中标注来源的不同,将其分为基于伪标注数据集和基于弱标注数据集的方法.此外,本文还综述了用于显著性目标检测研究的七个主流数据集和三个评价指标,并选取了其中三个使用最广泛的数据集对各个主流模型进行性能分析.本文旨在为国内研究者提供一个包含最新方法的综述,增加对显著性目标检测研究的理解,以得到一些启发.
早期基于深度学习的显著性目标检测方法通常使用卷积神经网络在超像素层面提取特征,进行目标显著性的判断,得到稀疏的显著性检测结果图.随着全卷积神经网络[18]在像素级语义分割中取得的巨大成功,基于像素级别的密集检测方法随之产生,并逐渐成为显著性目标检测的主流方法.方法综述的整体结构如图1所示.
图1 基于深度学习的显著性目标检测方法结构图
以超像素作为处理单元的代表工作有SuperCNN[19],MCDL[20]和ELD[21]等,SuperCNN[19]首先使用SLIC[22]算法在不同尺度下分割出多幅超像素大小不一的图像,且为每一个超像素生成两组特征序列,然后将这些序列送入卷积神经网络中训练得到图像的层级特征,并采用softmax激活函数将特征向量转化为每个超像素的显著性得分,即每个区域具有显著性的概率,再使用argmax分类出具有显著性的超像素区域,得到显著性映射图,最后将不同尺度下生成的结果图进行加权融合,得到最终的显著性目标检测图.
不同于SuperCNN[19]中对多尺度特征融合的探索,MCDL[20]致力于提取图像中的上下文信息,分别以每个超像素为中心,采用了大小不一的两个窗口提取各超像素的局部和全局上下文信息进行特征学习.Lee等人提出的ELD[21]则在MCDL[20]的基础上引入了传统方法中手工提取的显著性特征,并利用该特征为深度卷积网络中提取的特征提供互补信息,最终推断出每个超像素的显著性.
以候选对象作为处理单元的工作有SCSD [23],LEGS[24],MDF[25]和MAP[26]等.SCSD[23]的网络结构如图2所示,该模型首先通过SSOR[27]算法生成大量的候选对象,然后将这些候选对象送入卷积神经网络中,预测出每个候选对象中显著性对象所占区域的形状类别,并生成相应形状的掩码,即每个候选对象的显著性图,最后将这些候选对象的显著性映射相加即为整幅图像的显著性目标检测结果.Wang等人提出的LEGS[24]使用GOP算法[28]生成了一系列候选对象,同时训练一个深度神经网络来学习图像的局部和全局对比度、纹理及形状等信息,通过将候选对象中的高级语义特征与神经网络中各层级的显著性特征相结合,为每个像素分配显著性值,该方法可以有效地减少检测结果中的高频背景噪声.MDF[25]首先对输入图像进行超像素分割,然后为每个超像素选取了三个相嵌套且逐步增大的矩形区域作为候选对象,并分别在卷积神经网络中获得对应的特征向量,再将它们一并送入带有多个全连接层的神经网络中进行回归训练,得到最终的显著性区域分类.这些方法大多倾向于检测单个显著性对象,对此,Zhang等人[26]基于最大后验原理和卷积神经网络提出了一种能生成大量带得分标注框的模型MAP,通过一个子集优化公式筛选出一组用于描述显著性对象的标注框,该模型在具有多个显著对象的场景中可以取得很好的效果.
图2 SCSD网络结构图
基于超像素或候选区域的方法往往以一个小区域为计算单元,对它们进行独立的特征提取和显著值判断,因此其生成的显著性目标检测图通常带有模糊的边界.
UCF[29]是最具代表性的基于编-解码结构的显著性目标检测模型,其网络结构如图3所示,输入图像首先输入编码器中提取出图像的特征表达,在此基础上进行图像信息的解码重构,然后通过softmax分类器得到每个像素的显著性预测.
图3 UCF网络结构图[29]
然而,编码器在筛除无关特征的同时也会遗失一部分有效的显著性特征,而解码器在上采样的过程中也会不可避免地引入一部分的噪声信息.对此,Wang等人[30]将递归神经网络的循环计算结构与编-解码网络相结合,在UCF[29]的基础上添加了一个时间序列,使得基础网络在不同时刻反复训练,上一时刻网络输出的显著性映射图被当作是下一时刻网络训练的先验知识,与原始图像一并送入编码器中,取得了不错的效果.Liu等人[31]在文献[30]的基础上增加了编码器内的反馈路径,每个模块的输出以反馈的方式连接到下一时刻相同模块的输入,通过每一层多次共享权值,该网络架构可以在不显著增加参数量的同时,学习到更多的上下文和空间结构信息.
为进一步学习图像中上下文信息之间的关系,Kuen[32]等人在图3中编码器和解码器的中间位置上添加了两个递归网络层,利用递归网络学习的上下文感知特征,模型在迭代过程中逐步将原编-解码网络中生成的粗糙映射图精细化.Xu[33]等人通过添加空间和信道维度上的注意力机制,将基于不同子区域的上下文信息聚合到全局上下文中,加强了全局语境,减少了深度特征分辨率的牺牲.
此类方法通常利用卷积神经网络获得具有全局信息的显著性估计,然后利用超像素分割所得到的局部上下文线索进行信息补充.如图4中Multi-Task DNN[34]的网络结构图所示,该模型首先使用全卷积网络捕获原始图像中不同层次上显著性目标的语义信息,从而得到初步的显著性预测,再利用一个基于超像素分割图的非线性回归模型对初始预测图进行边界的细化调整,从而得到最终的细粒度显著性映射.
图4 Multi-Task DNN网络结构图[34]
虽然Multi-Task DNN[34]通过结合一种拉普拉斯正则化回归方法得到了较为精细的显著性分割图,但该模型较难分辨物体边界邻近具有相似颜色的像素,从而导致边界模糊的问题.对此,Yuan等人[17]将图4中超像素分割的结果添加进卷积网络的输入,并将稀疏检测中提取的整体目标轮廓和低阶图像特征共同作为指导信息,提高了轮廓定位的精准性.Hu等人[35]则引入了广泛应用在图像二值分割任务中的水平集方法(Level Set Method),水平集在模型的训练过程中被迭代更新从而使得网络的能量函数值最小化,以便将显著性目标从背景中准确地分割出来.实验表明,水平集方法的加入能显著地提高检测结果的边界精度.
进一步,Tang等人[36]设计了一种带有像素级和超像素级预测分支的双分支网络结构,然后将两个子网络分别获得的显著性映射通过卷积融合为最终的显著性检测结果.Li等人[37]在此基础上添加了一个全连接的条件随机场[38]作为后处理阶段,增强了对语义信息的挖掘,同时提高了检测结果中的空间一致性,减少了背景像素的误判.
联合训练方法综合了稀疏标注方法和全卷积网络方法,旨在提高对图像语义关系的学习能力,但模型较复杂,容易导致信息冗余.
基于简单编解码结构的网络模型主要利用卷积层的高层语义特征来预测显著性图,缺乏低层次的空间细节信息,这使得显著性检测结果无法保持良好的目标边界.U-Net[39]为解决该问题提供了很好的思路,其网络结构如图5所示,本小节针对基于U-Net结构的方法进行综述.
图5 U-Net网络结构图[39]
(1) 改进编-解码器之间跳跃连接的方法
当显著性对象处于杂乱的背景中时,神经网络的检测精度和速度都会受到影响.针对该问题,Luo等人[40]在图5所示结构中每一条跳跃连接的路径上添加卷积块和平均池化块,在获取局部和全局上下文信息的同时提升了空间信息的连贯性.Zhang等人[41]在文献[40]的基础上,为两两相邻的跳跃路径之间添加带门函数的连接,这使得模型能在双向传递信息的路径上进行无效信息的筛选和传递速率的控制,进而有效地集成多层特征和提高检测速率.然而,这些通过设计复杂结构来连接编-解码器间不同层次特征的过程往往比较烦琐,且多层次特征间的间接整合可能由于长期的依赖问题而存在缺陷.
(2) 引入递归结构的改进方法
为了更好地整合不同层级中卷积层提取的特征,Liu等人[42]提出了一种显著性区域检测方法,将解码部分的卷积层替换成递归卷积层,分层渐进地提取显著性映射,在获得低层空间细节信息的同时增强了模型集成上下文信息的能力.由于解码器的低级特征中通常保留了大量的边缘信息,Zhang等人[43]在文献[42]的基础上,为图5所示的U-Net结构中编码部分的第一个子模块添加尺寸为1×1的卷积层和ReLU层,然后将生成的边界预测添加到解码部分里每一个子模块的原始预测中,从而对这些子模块的输出进行边界细化处理,有效地保留了显著性对象的边界.
(3) 融合上下文语义信息的方法
Liu等人[44]在解码部分的子模块之间加入全局和局部上下文解码块,为每一个像素选择性地构造上下文信息,即对每个像素均生成一个注意力图,且根据上下文相关性分配相应的注意力权重,最终得到精准、均匀的检测结果.在文献[44]的基础上,Zhang等人[45]将编码部分中最末端子模块的输出以反馈的形式逐级连接到编码器中各个子模块的输入中,这使得高层级的全局语义信息转移到了较浅层的卷积层中,提高了网络的特征学习能力.Chen等人[46]改进了文献[45]中的反馈方式,将编码部分中最后一层的输出通过一个特征聚合模块连接到解码器中各个子模块的输出上,将低层的细节信息、高层的语义信息和全局上下文信息融合在一起,提高了显著性检测图的完备性.
Zhao等人[47]将编码器的前半部分和后半部分分别定义为富含空间信息的低层和富含语义信息的高层,并设立对应的注意力机制将这两部分的输出分开处理,网络模型在这样的训练过程中可以根据不同层次的特点从而选择更有效的特征进行学习.进一步,Noori等人[48]对编码层的分类更细致,他们根据尺度的不同为编码部分的每一层配置相应的注意力引导模块,这使得模型在有效提取多尺度特征的同时,增加对具有更多显著性特征映射图的关注,并衰减显著性鉴别度较弱的特征图.类似地,Liu等人[49]通过探索池化层的作用,在U-Net的基础上设计了位于解码器相邻子模块之间的全局信息引导模块和特征融合模块,帮助高阶信息在解码过程中更有效的融合.Wang等人[50]为各卷积层融合更深层次的特征,并以周期性的方式进行更新,高级语义信息能直接集成到所有低层特征中,这避免了合并相邻层特征导致的长期依赖问题,网络模型也在周期性的过程中逐步优化.
(4) 强化显著性目标边界检测的方法
为了提升显著性目标的边界检测精度,Feng等人[51]使模型的编码和解码部分的每一个子模块间保持着双向反馈的连接,同时模型学习从自身输出的显著性预测中提取边界,增强对边界的处理能力.Zhao等人[52]直接为模型添加了一个边界检测分支,并加入显著性对象的轮廓信息对它进行训练,获得了边界检测精度的提升.Han等人[53]将预测图与标注图之间的差通过公式转换为一个边缘约束项,并把它加入到损失函数中,以学习到更准确的边界预测.Qin等人[54]则将传统的交叉熵损失函数替换成一个由二进制交叉熵、结构相似度和交并比损失函数融合而成的混合损失函数,并在通用的编-解码结构后增加了一个残差细化模块,利用显著性目标的边缘信息和与其邻近区域信息之间的互补性,生成具有清晰边界的显著性目标检测结果图.
目前基于深度学习的显著性目标检测方法极大地提升了显著性目标检测的性能,但这些方法的成功在很大程度上依赖于带有像素级标注的大规模数据集.为了降低训练成本,有些研究者尝试使用没有任何人工标注的数据集或仅使用带有弱标注的数据集来完成对图像的显著性目标检测学习,本文将这些方法统称为弱监督方法.根据训练图像中标注信息的不同,本小节将弱监督方法分为基于伪标注数据集的方法和基于弱标注数据集的方法.
自从引入深度学习技术以来,Zhang[55]等人首次尝试在训练过程中不使用任何带人工标注的图像数据集,他们选用了一些传统方法下的显著性目标检测模型针对每个训练图像生成相应的一系列映射图,并将这些映射通过权重分配融合成单张样本标注图,即伪标签,然后将其与训练图像一并送入一个基于DHSNet[42]的模型中进行网络训练.实验结果表明,该模型可以达到相同网络下全监督模型所取得精度的95%至98%.
Zhang等人[56]在文献[55]的基础上对伪标签噪声进行显式建模,显著性检测模型和噪声拟合模型在协同工作中联合优化,使模型生成低噪声输出.该模型的精度甚至比同年的全监督网络RFCN[30]略微高出了0.8%,证明了联合优化网络性能的优越性.为了对伪标签进一步精细化,Nguyen等人[57]在文献[55]的基础上将每类传统方法生成的伪标签送入一个带自我监督的迭代细化网络,再将细化后的伪标签融合为最终用于网络训练的伪标注数据集.细化网络的加入极大幅度地降低了伪标签中的噪声,在减轻各类伪标签缺陷的同时保留了不同方法所产生伪标签的多样性,并提高了网络的泛化能力.
为综合不同传统模型的优点,Quan等人[58]设计了一种可以将已有的无监督模型结合起来的推理机制.该方法首先采用一些现有的无监督显著性检测模型对输入图像生成弱显著性检测图,然后为每个模型定义一个标注精度参数,同时为输入图像的各区域定义一个标注难度参数,以便同时考虑到各样检测模型间的性能差异和各类图像区域上的特征差异,进而在设定的融合原则下将各模型生成的弱显著性检测图整合成强显著性检测图,最后利用局部空间一致性作为约束条件,对整合结果进行细化,得到最终的显著性目标检测结果.
采用伪标签作为训练样本的方法利用了已有的无监督显著性目标检测模型来提供所需的伪监督,在极大程度上降低了人工标注的代价,但这些方法的最终性能主要取决于所选用模型生成的伪标签质量,检测精度的提升受到了限制.
弱标注数据指的是一些相对于像素级标注来说,成本更低的标注,如给出如图6(b)所示的图像级标注,或图6(c)的图像描述文本,或图6(d)所示的涂鸦标注.弱标注数据集可以避免依赖传统方法生成伪标签所带来的限制,同时为显著性目标检测训练提供更可靠的依据.
图6 各类弱标注图像
Wang[59]等人使用如图6(b)所示的图像级标签作为训练集的标注,并利用全卷积网络为图像标签中的对象类别分配相应的区域,然后通过由卷积层和二分类层组成的前景推理网络来捕获所有潜在的显著性对象区域.然而,这些类别标签的信息量是有限的,它们难以帮助网络去详细地预测整个范围内的显著性映射.相比之下,如图6(c)所示的图像描述没有固定在图像的类别上,而是作为一个更加高级的全局概念,为网络提供丰富的显著性线索.对此,Zhang等人[60]使用MSCOCO[61]和SALICON[62]构建了一个以图像描述为标注的数据集COCO-CapSal.在该数据集上,CapSal[60]和LAWS[63]利用长短时记忆网络(LSTM)网络来提取标题中潜在的上下文信息,并以此作为衡量语义内容的指标,再使用全卷积网络对输入图像进行显著性目标的推理和检测训练.实验结果表明图像描述在复杂场景下能有效地保持检测性能,但由于图像描述通常也包含背景,这会导致检测结果产生偏差.
Zeng等人[64]将图像级标签和图像描述共同作为标注样本进行训练,并针对这两种弱监督信息分别构建了分类网络和描述网络.分类网络用于显著性目标类别的预测,并标注出与分类结果相关的区域.描述网络用于生成对图像的描述并定位相应的区域.这两个网络通过一个转移损失函数使各自的监督信息可以在网络间进行传输,模型在这两个弱监督信息的协同训练中得到优化.
与上述探索自然语言与显著性对象之间联系的角度不同,Zhang等人[65]使用如图6(d)所示的涂鸦标注来学习图像中显著性目标的检测.在训练过程中,模型将图像的像素分为前景、背景和未知像素,首先使用一个基于VGG16的显著性预测网络中使用部分交叉熵损失函数对未知像素进行训练,获得初始的粗糙显著性映射,然后通过一个包含结构感知损失函数的边缘检测分支,补充图像中的边缘结构信息,从而得到优化后的检测结果.
MSRA[2]可以算作是第一个人工标注的显著性目标检测数据集,它包含了从各种图像论坛和图像搜索引擎收集的20840幅图像,图像的注释由边界框标记而成.MSRA10K[66] (也称为THUS10K)数据集由MSRA中的10000张图像组成,并增加了像素级标注.由于其大规模和精确的注释,该数据集被广泛用于显著性目标检测模型的训练中.
SOD[67]由来自BSD[68]的300张具有多个显著性对象的图像构成,这些对象与图像背景的颜色对比度大多都偏低,甚至还会与图像边界发生重叠,故该数据集具有非常高的挑战性,现被广泛用于显著性目标检测模型的评估中.
ECSSD[69]包含从BSD[68]、VOC2012[70]数据集和互联网上选取的1000张具有复杂场景的图像,这些图像大多都只有一个显著性对象,其前景和背景信息都包含着多样化的图案.
PASCAL-S[71]由850幅来自PASCAL VOC 2010[72]数据集上的图片组成,并在其原有的注释基础上增加了眼动注视点记录和显著性对象分割标记.
DUT-OMRON[73]包含5168张背景相对复杂且内容丰富的图片,每张图片都有一个或多个具有复杂背景的显著性对象,及与其相对应的像素级标注.
HKU-IS[25]包含4447张带有显著性物体像素级标注的图像,这些图像至少满足以下条件中的一个:存在多个不相连的显著性对象;至少有一个显著性对象触碰到所在图像的边界;颜色对比度小于0.7.
DUTS[59]是最大的显著性目标检测数据集,分为含10553张图像的训练集和5019张图像的测试集.训练图像选自ImageNet[74]训练或验证集,测试图像选自ImageNet[74]测试集和SUN[75]数据集,其精确的像素级标注由50名参与者手动标注而成.
3.2.1 PR曲线
精度(Precision, P)和召回率(Recall, R)也被称作查准率和查全率,是通过二值化下预测的显著性掩码和实际的显著性掩码计算得到的.
(1)
式(1)中的TP(True Positive)表示被模型预测为正的正样本个数,FP(False Positive)表示被模型误判为正的负样本个数,FN(False Negative)表示被模型误判为负的正样本个数,另外,TN(True Negative)表示的是被模型预测为负的负样本个数.
通过应用从0到255的阈值将显著性目标检测图二值化,每个阈值产生一组精度与召回值,从而描绘出呈现模型性能的PR曲线.通常而言,曲线越贴近右上方,模型性能就越好.
3.2.2 F-measure
F-measure[76]综合考虑查准率和查全率,计算方法如式(2)所示:
(2)
式(2)中的β2根据经验设置为0.3,用以提升精度在评估中所占的比重.除了绘制F-measure曲线,人们往往会直接取其中的最大值作为模型的评价标准.
3.2.3 平均绝对误差MAE
检测图与真值图之间像素的平均绝对误差(Mean Absolute Error, MAE)计算方法如式(3)所示:
(3)
式(3)中W和H分别表示图像的宽度和高度,Sx,y为模型检测得到的显著图,GTx,y代表人工标注的真实显著图.一般地,MAE的值越小,模型的性能也越好.
为了从检测性能上直观地展示本文所论述的方法,表1给出了不同的显著性目标检测模型在PASCAL-S[71]、ECSSD[69]和HKU-IS[25]数据集上的性能对比,并使用F-measure和平均绝对误差作为评估指标,所有数据均取自原始文献中的实验报告.其中,“§”表示该项评估指标在对应的方法中没有具体的数据(通常以图的形式呈现);“-”表示该方法没有在对应的数据集上进行测试;“b”代表深度监督学习下的稀疏检测模型;“#”代表弱监督模型.
表1 不同方法在三个数据集上的性能对比
观察表1中所有方法所使用的测试集可以发现,相较于其他数据集,MSRA10K和DUTS在模型训练中被广泛使用,这在一定程度上体现了数据规模对于深度神经网络训练的重要性.随着显著性目标检测领域的发展,研究者逐渐约定俗成地使用MSRA10K和DUTS作为训练集,然后将训练好的模型在ECSSD、PASCAL-S和HKU-IS等常用数据集上进行测试.
如表1所示,稀疏检测方法在2017年以后基本完全被密集检测方法所替代,这是由于稀疏检测方法通常以一个区域为计算单元,需要候选区域提取和区域到像素的映射等步骤,导致检测精度的提升受到限制.而密集检测方法以整幅图像为输入,为每个像素进行显著性的判断,实现像素级预测的同时大幅度提升了显著性目标检测的精度.与同期监督学习下的深度网络模型相比,弱监督模型减少了对人工标注数据的依赖,但提取有效特征的能力也相应地下降了,因此其检测性能普遍较深度监督模型的更低.然而,有些弱监督方法可以追平甚至超过同时期部分深度监督方法的性能.如2017年提出的WSS[59]在各个数据集上的F最大值指标均超过了同年的深度监督模型DLS[35],这是由于DLS[35]模型在训练过程中稀释了高级特征,同时还引入了超像素分割所携带的噪声.2018年的MNLP[56]的性能指标也比同期的RFCN[30]略微高些.此外,从2019年至今的研究工作中,暂未出现性能超越监督学习方法的弱监督模型,但由于弱监督学习方法能在大幅度降低人工成本的同时仍保持较高的性能,依然值得对其开展更多的相关研究工作.总体上,显著性目标检测模型的性能随着时间的推移逐渐提高,这展示了显著性计算模型的发展.
本文首先对深度监督学习下的显著性目标检测模型进行了综述,并从检测粒度的角度分类综述了这些方法间的联系及各自的优缺点.然后根据训练图像中标注信息来源的不同,详细阐述了弱监督学习下的网络模型.另外,本文介绍了七个主流数据集和三个主流评估基准,并从中选取了三个最为广泛使用的测试集和两个便于数据直观对比的评估指标,通过从原始文献中采集实验数据来进行模型间的对比分析.
与传统方法相比,现今显著性目标检测模型的性能已取得显著的提升,但仍然存在许多的挑战.新的研究趋势包括:在特征提取方面,如何学习到更能表达显著性语义概念的特征;利用多任务学习,通过执行多个计算机视觉任务(如目标检测、语义分割等)产生丰富的信息,进而大幅度提高单独训练模型的性能.弱监督学习下的显著性目标检测模型如何融合多源信息来进行训练也是非常值得研究的方向.随着社交媒体的普及和大数据技术的发展,研究者很容易获取多源信息,如很多社交媒体信息可以提供图片和文字形式的描述,这可以为弱监督学习下的检测模型提供更多无需人工标注的训练样本.
本文仅用于学习交流,如有侵权,请联系删除 !!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。