当前位置:   article > 正文

论文阅读Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector (2020 CVPR)_few-shot action recognition with captioning founda

few-shot action recognition with captioning foundation models

1. 出处

2020 CVPR

香港科技大学,腾讯

2. 主要内容

提出了自己的数据集

提出了自己的小样本目标检测方法,不需要微调或者继续训练就能识别novel class

3. 问题

目标检测传统的方法需要大量的训练数据,准备大量高质量的训练数据需要耗费很多人力。

给定少量样本的目标检测的关键就在于如何在复杂的背景中定位一个unseen目标。潜在的bbox很容易丢失unseen目标,或者对背景产生错误检测。这是因为RPN产生的bbox的低分,使得novel object难以被检测出来。

而且已有的小样本目标检测方法都需要微调,不能直接用于novel类别检测。

4. Solution

作者提出的方法利用小样本support set和query set的相似度来检测novel objects。

给定novel target object的一些support图像,作者的目标是检测test set中所有属于目标类别的前景objects。

两大贡献:

  1. 提出的小样本目标检测模型无需经过进一步训练或者微调就能检测到检测出novel目标。

    通过提出的对比训练策略,RPN和检测器的注意力模型,作者的方法可以使用共享权重网络的目标对之间的匹配关系

  2. 提出了一个小样本目标检测数据集FSOD:有1000个类别,每类有很少的样本

5. 模型架构

5.1 setting

给定一个support image s_c,是target object的特写,还有一个query image q_c,可能包含support类别c对应的物体,任务是找到query image中类别c对应的所有物体,进行bbox标注。

support image会被裁剪,只包含target object,留出16像素的边距,用0填充成320*320大小。同类物体的特征取均值后作为该类的特征,然后作为attention RPN的输入。

采用2-way 5-shot训练策略。

Evaluation:

两种evaluation settings

  1. 消融实验采取episode-based evaluation protocol

    每个episode,N-way K-shot评估,每类K张support图像,每类10张query image,每张query image包含至少一个instance属于该类。因此每个episode,共有K*N个supports,10*N个query image

  2. 其他和baseline的对比实验,采用标准的目标检测评估策略,full-way, N-shot

    评估的时候,一旦获得了support features,模型中的support分支被丢弃,support features作为模型权重,用于前向传播

5.2 整体结构

在这里插入图片描述

  1. attention网络用于学习support set和queries之间的匹配关系
  2. weight shared network包括多个分支,一个分支用于query set,其他的用于support set
5.2.1 Attention-Based RPN

RPN作为后续检测任务之前的重要部分,产生潜在的相关boxes,需要不仅能判断出某个region是否包含物体(是前景还是背景),而且能过滤掉不属于support set的负样本。

然而,没有support image信息的话,RPN会漫无目的地激活所有high objectness score的潜在目标,尽管他们不属于support class,这对后续的分类任务造成很大负担。

因此,作者提出了Attention-Based RPN,通过注意力机制,将support infomation引入到RPN中,利用support information过滤掉大部分背景boxes及类别不匹配的boxes。
在这里插入图片描述

5.2.2 Multi-Relation Detector

在这里插入图片描述
作者提出了一个Multi-Relation Detector,用于度量query和support的proposal boxes之间的相似度。

Detector包括3个attention modules:

  1. global-relation head用于学习global matching的deep embedding
  2. local-correlation head用于学习support和query proposals中pixel-wise和depth-wise cross correlation
  3. patch-relation head用于学习patch matching的深度非线性度量
5.2.3 Two-way Contrastive Training Strategy

传统的训练策略匹配同类物体,query image q_c和support image s_c都是第c类物体。然而好的模型需要不仅能匹配同类物体,而且能区分不用类别的物体。

因此,作者提出了2-way对比训练策略。

随机选择一张query image和一张support image,他们包含同类第c类物体,另一个support image包含不同的第n类物体,构建出一个三元组(q_c, s_c, s_n),在training triplet中,只有第c类物体被标记为前景,其他的物体都被标记为背景。
在这里插入图片描述

6. 疑问

  1. weight shared network,是网络结构共享还是参数共享?

    参数共享,support set训练后的权重,给query set用

7. 启发

  1. 作者说他们所提出的小样本网络一旦训练完,无需经过进一步训练或者微调就能检测出unseen目标。

  2. 这个方法最大的特点在于,按图索骥,相当于给一个物体,到其他图上找到该类对应的物体

    如果想要检测多个类别,就需要有多个support分支,训练对应的backbone,然后与query分支共享参数,检测对应的类别

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/651962
推荐阅读
相关标签
  

闽ICP备14008679号