赞
踩
论文地址:https://arxiv.org/abs/1908.01998
本文的主要贡献:1)提出了一种不需要fine-tuning的少样本目标检测方法,主要利用了Attention-RPN, Multi-Relation Detector and Contrastive Training strategy;2)提供了一个包含1000个类别且每个类别只有几个样本的数据集。
给定一个与目标 c 相近的支撑图片 sc 和一个可能包含目标 c 的查询图片 qc ,任务是找到查询图片中所有属于 c 的目标并标定位置。如果支撑集中包含 N 个种类且每个种类有 K 个样本,那么问题就被称为 N-way K-shot 检测。
本文提出了一种新的注意力网络,它作用在 RPN 模块和 detector 上,学习支撑集和查询集之间的一般性匹配关系。
网络的整体结构(支撑可以是多分支,这里只描述了单个分支,整个网络基于Faster RCNN框架)
RPN 用来生成潜在的相关框,以便于后续的检测任务。没有支撑图片信息,RPN只会无目的地生成所有可能的目标框,包含可能不属于支撑图片的种类。这样会加重后续任务的难度,所以提出了Attention RPN,来过滤更多的背景框,结构如下。
Attention RPN通过计算支撑集的特征图和查询集特征图(depth wise)之间的相似度来建立更好的候选框。相似度计算如下:
支撑集的特征图 X∈tS×S×C 查询集的特征图 Y∈tH×W×C ,G为相应的注意力特征图,X作为卷积核(池化为1*1的形式)。
在 RCNN 的框架下,RPN 模块之后都会有一个检测器用于对proposal进行重新评估和调整。本文中提出一个 Multi-Relation Detector 来衡量支撑集与查询集的 proposal boxes 的相似度,如上图所示。该检测器包含3个attention相似性模块,将3个模块的分数求和作为最终的匹配分数。对于大小均为7 × 7 × C的辅助特征fs和查询特征fq:
论文对3种head的重要性进行了实验,可以看到这3种head能很好地互补,结合起来能够完整地表达目标间的关系。
通常少样本训练策略为每次输入为( qc , sc),论文认为模型应该同时学习识别同类别和区分不同类别,提出2-way对比训练策略。
如上图所示,该策略每轮随机选择一张查询图片qc、一张支撑图片sc以及一张其他类别的支撑图片sn组成三元组(qc,sc,sn),c≠n,查询图片中只有c类目标标记为前景。在训练时,不仅学习(qc,sc)间的相似性,也学习(qc,sn)间的差异性。由于背景proposal的数量比较大,占据着训练过程,所以foreground proposal and positive support pairs (pf,sp)、background proposal and positive support pairs (pb,sp)和proposal (foreground or background) and negative support pairs (p,sn)控制为 1 : 2 : 1 比例,根据匹配分数从高到低选择。每个proposal的损失为L = Lmatching + Lbox,匹配损失使用二值交叉熵,边框损失的计算与 faster rcnn 中的一致。
论文对不同的训练策略进行了对比,2-way 5-shot对比训练策略效果最优,并且可以看到Attention RPN也是有效的。
新训练集基于ImageNet(选了531类)和Open Images dataset V4(选了469类),但训练集间的类别不同,为了防止合并后存在漏标的情况,先对label进行分析和合并成树状结构,补充标注,然后去掉标注质量差的图片,包括包含目标太小(≤ 0.05 %)的图片。将类别分为训练集和测试集,先用COCO的类别作为基础训练集,防止预训练的影响,然后尽量选择与当前训练集差距较大的类别作为测试集,共包含200类,再选择另外800类作为训练集
新训练集主要有两个特性:
更多的种类对少样本目标检测具有重要意义
论文提出了新的少样本目标检测算法,创新点包括Attention-RPN、多关系检测器以及对比训练策略,另外还构建了包含1000类的少样本检测数据集FSOD,在FSOD上训练得到的论文模型能够直接迁移到新类别的检测中,不需要fine-tune。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。