赞
踩
本文提出一种用于小样本目标检测的算法。整个结构采用两阶段的形式,第一阶段利用RPN网络进行定位,第二阶段利用检测器进行分类。针对这两个阶段的结构,本文做了两点改进以满足小样本学习的需求。首先提出一种基于注意力的RPN模块(Attention-Based Region Proposal Network,Attention-RPN),其次是提出一种采用多重关系的检测器(Multi-Relation Detector,MRD),最后作者还对训练方式进行了改进,提出Two-way Contrastive Training Strategy的训练策略。整个网络的结构如下图所示
支持集图片是带有目标物体的特写图片,查询集图片是带有多类物体的照片。首先利用两个权重共享的网络分支,分别提取支持集图像和查询集图像的特征(对于支持集图像由于包含多种类别,因此有多个平行的特征提取分支,分别对应每个类别的图像)。然后对两组特征图分别进行感兴趣区域池化,用于寻找可能存在目标物体的区域。作者提出如果不借助任何的支持集图像的信息,RPN模块会漫无目的的在查询集图片中寻找存在物体概率大的区域,而不考虑这个物体是否是属于支持集类别的。因此作者将支持集的信息引入RPN过程中,过滤掉背景部分和不匹配的类别,实现过程如下图所示
支持集特征图
X
X
X经过平均池化得到一个一维的特征向量,查询集特征图
Y
Y
Y沿通道维度进行离散化,然后利用
X
X
X对应的特征向量作为卷积核,对
Y
Y
Y对应的特征图做卷积操作,寻找到各个通道上每个像素点之间的关系,得到了带有注意力的特征图
G
G
G。最后对
G
G
G进行3 * 3的卷积,并判断是否包含物体和编辑框的回归(与普通的RPN过程相同),就得到查询集图像相应的RPN结果。对于支持集图像,直接用真实边界框做感性与区域池化就得到对应的结果。在得到查询集图片和支持集图片对应的RPN结果后,要通过相似性度量的方式来判断各个区域内的物体是属于哪个类别的,本文采用三种方式并行计算查询集图像和支持集图像之间的相似程度,处理过程如下
三个分支分别是:全局关系分支(global-relation),局部关系分支(local-correlation)和图块关系分支(patch-relation)。顾名思义全局关系分支就是利用平均池化的方式将支持集和查询集图像对应的感兴趣区域特征图转化为一个特征向量,然后再计算相似性关系;而局部关系分支则是逐像素计算两组特征图之间的关系;而图块关系分支则是一个像素对应多个像素进行相似性计算,三个分支可以互为补充,可以获得更好的分类性能,具体计算过程正文中并没有介绍。
最后,作者还提出一种Two-way Contrastive Training Strategy的训练策略,作者认为一个好的分类器不仅能够识别图中物体所属的类别,而且能够区分图中物体不相关的类别。因此在训练过程中,支持集中不仅包含查询集中存在的正向样本,而且还混杂有查询集中不存在的负向样本,让网络判断查询集中的物体是否与二者相匹配,以增强网络的区分能力。
此外,作者还为小样本目标检测任务制作了一个专用的数据集(FSOD: A Highly-Diverse Few-Shot Object Detection Dataset)用于支持小样本目标检测任务的研究,共包含1000个类别,总计66000张图片。
特征提取网络部分采用Faster R-CNN网络的结构,其余部分没有具体介绍。
共包含三个部分:RPN损失 L R P N L_{RPN} LRPN与Faster R-CNN采用的计算方式相同,边界框损失 L b o x L_{box} Lbox与Fast R-CNN采用的计算方式相同,匹配损失 L m a t c h i n g L_{matching} Lmatching采用二元交叉熵损失函数。
见上文关于Two-way Contrastive Training Strategy训练策略的介绍。
本文整体上沿用了二阶段法的目标检测流程,先利用RPN网络对可能存在目标物体的区进行定位,然后再对感兴趣区域内的物体进行分类,分类时采用了小样本分类任务中常用的基于度量学习的方式,并针对小样本学习的场景做了一定的改进。借助于本文制作的小样本目标分类数据集和新型的训练策略,本文提出的算法在目标检测效果上都优于先前的算法,取得了显著的进步。
如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。