赞
踩
论文:DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection
代码:无。。。
出处:NIPS2022 | 华为诺亚方舟 | 中山大学 | 香港科技大学
效果:
开放世界目标检测是一个通用且有挑战的方向,其目标是要识别和定位任意类别的目标
最近的工作 GLIP 将其构建成了一个 phrase grounding 任务,将所有待检测的类别整合成了一个句子,然后送入 text encoder 进行编码并和图像特征进行对齐
在 text encoder 中,会学习所有类别之间的 attention,这其实是没有必要且低效的,尤其是当类别数量增加时,效率更低
基于此,作者提出了 DetCLIP,dictionary-enriched visual-concept paralleled pre-training method,这里的 concept 指的就是检测任务中的类别名称、grounding 任务中的 phrase 等
另外,预训练时候使用的数据集一般域间差别比较大且命名也有较大的不同,比如一个相同类别的目标在在不同数据集中的命名可能是不同的
这样就很难直接从命名上来获得这些类别之间的关联
所以作者重新构建了一个 concept dictionary,丰富联合不同数据集进行 pre-training 的 prompt text
一个好的开放世界目标检测器需要很丰富的训练数据,要覆盖到足够多的视觉概念
现有的目标检测数据集类别还是不够多,这也是受限于标注限制
grounding data 和 image-text pair 有很丰富的语义覆盖
所以,需要将这些不同类型的数据整合到一个统一的存储方式来进行后续的任务
如图 3 展示了使用不同类型的数据的不同,a-b 展示了传统的检测数据和 grounding 数据使用不同的数据输入,检测数据将类别当做固定的 label,grounding 数据将整个句子当做输入,构建每个单词之间的关系,然后将编码后的 token 和图像区域进行对齐
GLIP 将目标检测构建成了 grounding 任务,将类别组合成了一个句子,如图 3c
本文作者认为这样的做法有如下问题:
DetCLIP 如何破局:
不同数据如何适应这个并行结构:
检测数据:假设一个图中有 k 个 positive category,首先将类别数量扩展到 N (随机抽取负类别),N 是预定义好的数量,用于构造 alignment loss,然后将 N 个类别名称作为独立的句子送入 text encoder,并且使用 [end of sentence] token 的编码作为每个类别的 text embedding,最后,将所有 N 个 text embedding concat 起来和 gt 去计算 alignment loss,coco 示例如下:
grounding 数据:作者会从 grounding 标注的 caption 中抽取 positive phrase,然后同样扩展到长度 N,一个例子如下:
Image-text pair 数据:只有图像和对应的描述,没有标注框。为了获得目标框,首先使用 RPN 来生成与类别无关的 proposal,然后使用预训练好的 CLIP 或 FILIP 为这些 proposal 生成伪标签,然后和前面的处理方法一样
由于现有的 detection/grounding/image-textpair 这些数据集有较大的 domain gap 和不同的 labeling space。
一个男孩可以被标注为 man、child、people,这些概念也会有包含或层级的关系
这些语义的关系可能会促进预训练,但仅从词汇名称中很难发现他们直接的关系
所以,作者构建了一个大规模的词汇字典,来将不同数据源的词汇统一到一个词汇空间,并且能够通过描述来提供不同词汇之间的关联
例如:
这样的描述即表达了 car 和 motorcycle 的不同,也表达它们之间的相同点
作者是如何构建的:
词典如何丰富:
对与 grounding 或 image-text pair 数据,标注描述中指包含了主要的目标,也就是 partial labeling,所以会有两个问题:
如图 5 所示,DetCLIP 包含:
loss 如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。