当前位置:   article > 正文

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

few-shot object detection with attention-rpn and multi-relation detector

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

论文地址:https://arxiv.org/abs/1908.01998

简介

  • 少样本学习具有挑战性,它很容易受光照、形状、纹理等变化的影响,尽管有较多研究做了少样本分类,但是从少样本分类转化到少样本目标检测并不是简单的事。
  • 给定少量样本的进行目标检测问题的核心是在一个复杂的背景中定位一个之前未曾见过的目标,从结果来看就是一个利用几个新种类的标注样本中进行目标定位的一般性问题。
  • 目前有的少样本目标检测方法都需要fine-tuning,不能直接应用到新的种类。

本文的主要贡献:1)提出了一种不需要fine-tuning的少样本目标检测方法,主要利用了Attention-RPN, Multi-Relation Detector and Contrastive Training strategy;2)提供了一个包含1000个类别且每个类别只有几个样本的数据集。

方法

问题定义

给定一个与目标 c 相近的支撑图片 sc 和一个可能包含目标 c 的查询图片 qc ,任务是找到查询图片中所有属于 c 的目标并标定位置。如果支撑集中包含 N 个种类且每个种类有 K 个样本,那么问题就被称为 N-way K-shot 检测。

Deep Attentioned Few-Shot Detection

本文提出了一种新的注意力网络,它作用在 RPN 模块和 detector 上,学习支撑集和查询集之间的一般性匹配关系。

网络的整体结构(支撑可以是多分支,这里只描述了单个分支,整个网络基于Faster RCNN框架)
在这里插入图片描述

Attention-Based Region Proposal Network

RPN 用来生成潜在的相关框,以便于后续的检测任务。没有支撑图片信息,RPN只会无目的地生成所有可能的目标框,包含可能不属于支撑图片的种类。这样会加重后续任务的难度,所以提出了Attention RPN,来过滤更多的背景框,结构如下。
在这里插入图片描述
Attention RPN通过计算支撑集的特征图和查询集特征图(depth wise)之间的相似度来建立更好的候选框。相似度计算如下:
在这里插入图片描述
支撑集的特征图 X∈tS×S×C 查询集的特征图 Y∈tH×W×C ,G为相应的注意力特征图,X作为卷积核(池化为1*1的形式)。

Multi-Relation Detector

在这里插入图片描述
在 RCNN 的框架下,RPN 模块之后都会有一个检测器用于对proposal进行重新评估和调整。本文中提出一个 Multi-Relation Detector 来衡量支撑集与查询集的 proposal boxes 的相似度,如上图所示。该检测器包含3个attention相似性模块,将3个模块的分数求和作为最终的匹配分数。对于大小均为7 × 7 × C的辅助特征fs和查询特征fq:

  • global-relation head,用于学习全局匹配的深层embedding。将fs和fq concatenate成特征fc,然后平均池化成1×1×2C,最后用加ReLU的两层全连接层输出最后的分数。
  • local-relation head,学习pixel-wise和depth-wise的关系,即对应位置的关系。首先使用1×1×C卷积分别操作fs和fq,使用前面的Attention RPN进行depth-wise的相似性计算获得相似性特征图Gh,w,c,S = H = W = 7,最后用单层全连接层获得分数。
  • patch-relation head,用于学习非线性的快匹配,即一对多的关系。将fs和fq concatenate成特征fc,然后输入到下表的块关系模块中,表中的卷积层后面都接ReLU,所有卷积层和池化层都进行0填充,模块将特征图从7×7下采样为1×1,最后同时接两个全连接层,一个全连接产生匹配分数,另一个产生bbox的预测。
    在这里插入图片描述

论文对3种head的重要性进行了实验,可以看到这3种head能很好地互补,结合起来能够完整地表达目标间的关系。
在这里插入图片描述

Two-way Contrastive Training Strategy

通常少样本训练策略为每次输入为( qc , sc),论文认为模型应该同时学习识别同类别和区分不同类别,提出2-way对比训练策略。
在这里插入图片描述
如上图所示,该策略每轮随机选择一张查询图片qc、一张支撑图片sc以及一张其他类别的支撑图片sn组成三元组(qc,sc,sn),c≠n,查询图片中只有c类目标标记为前景。在训练时,不仅学习(qc,sc)间的相似性,也学习(qc,sn)间的差异性。由于背景proposal的数量比较大,占据着训练过程,所以foreground proposal and positive support pairs (pf,sp)、background proposal and positive support pairs (pb,sp)和proposal (foreground or background) and negative support pairs (p,sn)控制为 1 : 2 : 1 比例,根据匹配分数从高到低选择。每个proposal的损失为L = Lmatching + Lbox,匹配损失使用二值交叉熵,边框损失的计算与 faster rcnn 中的一致。
在这里插入图片描述论文对不同的训练策略进行了对比,2-way 5-shot对比训练策略效果最优,并且可以看到Attention RPN也是有效的。

FSOD数据集

新训练集基于ImageNet(选了531类)和Open Images dataset V4(选了469类),但训练集间的类别不同,为了防止合并后存在漏标的情况,先对label进行分析和合并成树状结构,补充标注,然后去掉标注质量差的图片,包括包含目标太小(≤ 0.05 %)的图片。将类别分为训练集和测试集,先用COCO的类别作为基础训练集,防止预训练的影响,然后尽量选择与当前训练集差距较大的类别作为测试集,共包含200类,再选择另外800类作为训练集

新训练集主要有两个特性:

  • High diversity in categories,类别覆盖的领域很多,包括动物、衣服、武器等,且训练集和测试集的类别来自不同的领域
  • Challenging setting,数据集在box大小和宽高比上有很多种,26.5%的图片包含至少3个目标,且有大量非目标类别的物体,干扰性很大
    在这里插入图片描述

实验

ImageNet 数据集的对比实验

在这里插入图片描述

COCO数据集的对比实验

在这里插入图片描述

FSOD数据集的对比实验

在这里插入图片描述

More categories ? more samples

在这里插入图片描述
更多的种类对少样本目标检测具有重要意义

总结

论文提出了新的少样本目标检测算法,创新点包括Attention-RPN、多关系检测器以及对比训练策略,另外还构建了包含1000类的少样本检测数据集FSOD,在FSOD上训练得到的论文模型能够直接迁移到新类别的检测中,不需要fine-tune。

参考博文:腾讯推出超强少样本目标检测算法,公开千类少样本检测训练集FSOD | CVPR 2020

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号