当前位置:   article > 正文

​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP...

visual grounding 最新论文2024

689435ea92cdde6d4e95a74df2476435.gif

视觉定位(visual grounding)要求根据自然语言 query 定位图像中相应的物体或区域,其标注费时费力,现有的有监督数据总计仅约 22 万条,严重限制了有监督视觉定位模型在通用领域数据上的泛化能力。

为了解决视觉定位任务上数据稀疏的困局,浙大团队开创性地提出利用在海量数据上预训练的视觉-语言模型(vision-language models,简称 VLP)开放词汇目标检测模型(open-vocabulary object detector,简称 OVD),以零样本推理的形式实现在通用领域的上的视觉定位。

该方案名为 GroundVLP,精巧地融合了 VLP 模型输出的 GradCAM 分数与开放词汇目标检测模型输出的检测框,无需训练、泛化性能佳,在多个领域的视觉定位基准数据集上都取得了最佳的零样本推理性能,接近甚至超过在标注数据上训练的有监督模型的效果。

日前,该论文被人工智能国际顶会 AAAI 2024 录用。本文将详细解读这一优秀研究工作的动机、技术方案与应用效果。

96542d3f5151e6e555e7428ddeb31fa8.png

论文题目:

GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection

论文链接:

https://arxiv.org/abs/2312.15043

收录会议:

AAAI 2024

a2a2f1f1cc55860a06bc17c29096ddc6.png

动机:视觉定位标注难?以有余补不足

视觉定位(visual grounding)是重要的视频-语言理解任务,要求根据自然语言输入定位图片中相关的物体与区域,包括两类子任务:

  • 指代表达理解(refering expressin comprehension,简称 REC):根据文本指代描述在图片中定位相应的单个物体;

  • 短语定位(phrase grounding):在图片中定位输入句子中的每个实体。

已有的视觉定位研究大多在特定任务的有监督数据集上进行模型训练和评估,但由于视觉定位需要精确地理解物体的相互关系和属性,标注起来费时费力,现有的可用数据加起来只有约 22 万条,和动辄数千万甚至数十亿的图文对数据和目标检测数据相比十分贫瘠。原文列出了视觉定位数据与图文对、目标检测可用数据的数量对比:

8c77d04e2aa47431a78a940ca6b0f259.png

▲ 三类数据的常见数据集和总量级对比

这种数据丰富程度的天壤之别也自然映射到了模型能力上,过去的研究中,在有限的视觉定位数据上训练的 visual grounding 模型对未见过的分布泛化能力差、应用领域受限。

而在海量数据上预训练的 CLIP [1]、ALBEF [2]、BLIP [3] 等视觉-语言预训练模型(vision-language models,简称 VLP)具备强大的零样本图文匹配能力,不需要微调即可很好地应用到新的领域上,同样在海量数据上训练的 Dectic [4] 等开放词汇目标检测器(open-vocabulary object detector,简称 OVD)也具备出色的零样本泛化能力。

直观地来看,VLP 擅长匹配整张图片和整个描述图片的句子,OVD 则从图片中提取局部对应的实体(检测框)并给出单词级别的描述,而 visual grounding 要做的是根据短语级别的描述,从整张图片中框出对应的实体,该任务与图文匹配、OVD 高度相关。

本研究即采取迁移学习中“以有余补不足”的思路,希望将 VLP 和 OVD 预训练模型从海量数据上学习到的泛化能力,以无需训练的方式迁移到 visual grounding 这一数据贫瘠的相关任务上来。

c02fe600f362b8d12a469fc966f10036.jpeg

如果把标注数据比作水资源,visual grounding 的研究正在贫瘠的沙漠中挣扎,而图文对数据和目标检测数据丰沛如大洋之水,滋养了强大的 VLP 和 OVD 预训练模型。

00e13a38a5a6f520b81ae287d585c26e.png

方案:GradCAM分数与目标检测框的精巧融合

2.1 利用VLP模型输出的GradCAM分数

首先介绍本研究利用预训练图文匹配模型时使用的基本工具 GradCAM(Gradient-Based Class Activation Mapping)[5]。它是衡量输入数据或某个中间特征对最终任务损失影响程度的工具,设某个输入或中间特征里的元素为 ,最终任务损失为 ,则 的梯度为 , 的 GradCAM 分数为 ( 为点乘),直观地看,就是 改变一个极小量时 的变化量( 本身乘以 对 的梯度)。

Visual grounding 问题中,我们要用的是图文匹配模型(本文用的是 ALBEF [2] 或 VinVL [6])里某段输入文本对图文匹配损失 的影响程度。

设某个文本 token 对某个视觉 token 在某个中间层的注意力分数(softmax 归一化后)为 ,则该文本 token 和该视觉 token 的关联程度可以认为是 的 GradCAM 分数 ,正号表示只截取正值(作者选择将负值置零,表示只考虑正面影响)。由于实际上模型一般使用多头注意力,标准写法为 ,其中 表示沿注意力头的数目这个维度取平均。

那么要衡量一个句子或短语对图像中一个区域的匹配程度,将上述的 值在文本维度做 pooling(文本侧选取部分关键 token 对应值取平均),即可得到整句话与每个视觉 token 对应的匹配度分数,因为每个视觉 token 都可以对应到输入图像的一个区域,因此经过该次处理,我们就可以量化出一个句子或短语与图像中某个区域的匹配程度高低。

值得注意的是,由于文本部分可能存在 a/the/and 这样不对应具体图像区域的虚词,作者提出用词性标注工具解析出文本部分每个词的词性标签,只有名词、形容词、动词、专有名词和数词容易被可视化的词性才会被考虑到 值的计算中(文中称为 Visual-Word Attention Aggregation)。

比如 “black and white cat” 这个输入中,“black”、“white”、“cat” 被保留下来,而 “and” 被过滤掉。此外,在 REC 子任务中,[CLS] token 的对应值也被纳入 值的计算中。

2.2 利用OVD模型得到候选物体框与置信度分数

Visual grounding 要求根据输入的文本定位对应的图像区域,我们已经有了上述的 GradCAM 工具衡量文本和图像区域的匹配程度,那么只要有一些候选的图像区域,根据 GradCAM 分数排序就可以得到定位结果。

这时候我们就要用到Dectic [6] 这样的 open-vocaburalry object detector(OVD)来生产候选的 object prposals。由于 OVD 会生成大量各种类别的 proposals,我们需要将候选空间限定到 query 对应的类别中,本文采取了两种方式抽取类别信息:

  1. 使用数据集中标签对应的类别(方便评测,但离现实设定较远);

  2. 将语法解析工具抽取出的名词短语作为类别信息(有噪声,但更符合现实需求)。

这样一来,如下图所示,我们通过 OVD 生成候选的 boudning box 和对应的置信度分数 (图的下部分),每个 bounding box 可以和输入文本计算 GradCAM 分数 ,接下来要考虑的是如何融合二者对 bounding boxs 进行排序,得到最终的定位结果。

e03b57ed586edf3ac2df60462690aaf1.png

▲ GroundVLP的总体流程

2.3 融合预测得到定位结果

最后,对每个 candidate bounding box,将 OVD 的置信度分数 和 VLP 得出的 GradCAM 分数 相乘,再除以一个 bounding box 大小的正则项 得到最后用于排序的分数 :

bbf74193f51889d3a1fc18e67ecb9347.png

其中 为 bouding box 的大小, 为超参数。对每个自然语言 query 对应的 candidate bounding box,取 值最大的作为定位结果。

ff4682ccc3e315e812685e8c3b8a77b0.png

效果:零样本新王者,接近或超过有监督模型上限

作者分别在 REC 子任务的 RefCOCO、RefCOCO+、RefCocog 数据集和 phrase grounding 子任务上的 Flickr30k 数据集上做了实验,REC 的评测指标为 top1 accuracy,phrase grounding 的指标为 Recall@1 与 Recall@5。

主实验中,VLP 模型为 ALBEF-14M(14M 图文对预训练数据,约 210M 参数量)或 VinVL-Large(约 8.85M text-tag-image 三元组预训练数据,约 350M 参数量)。

从下表可以看出,在 REC 的三个测试集上,使用自动预测的实体类别信息的 GroundVLP 就刷新了零样本设定下的 SOTA,当 VinVL 作为提取 GradCAM 分数的基础模型时,RefCOCO 和 RefCOCO+ 的 test A 上都增长了约 20 个百分点,接近没有视觉-语言预训练的有监督模型,在 RefCOCOg 的测试集上甚至超过了非预训练的有监督模型,显示出 GroundVLP 强大的零样本泛化能力。

虽然离监督数据上微调的视觉-语言预训练模型 UNITEXT 还有一定差距,GroudnVLP 作为零样本的通用模型已经足够惊艳,他成功地将 VLP 和 OVD 预训练学习到的知识迁移到了数据稀疏的视觉定位任务上来,大大提升了视觉定位模型在通用领域的零样本泛化能力。

3bf0f57d6cd33e98fd1a7273076fcf95.png

▲ REC子任务上的评测结果

在 phrase grounding 子任务上,GroundVLP 同样表现不俗,取得了最佳的零样本推理效果。

b98d7814d7942f31e3d136b0b9d6809d.png

▲ Phrase grounding子任务上的评测结果

17d1afb6b04188b9c521e4c581387214.png

结语与思考

GroundVLP 设计了精巧的推理机制,成功地将在大规模图文对与目标检测数据上预训练的 VLP 和 OVD 模型组合在一起用于视觉定位,未进行任何参数训练就破解了视觉定位领域稀疏的困局,为实现领域通用的视觉定位基础模型迈出了坚实一步。

笔者在这里想进行一点补充,针对视觉定位标注数据稀疏其实还有一条由微软半年前发布的 Kosmo2 [7] 指出的模式——使用 OVD 模型自动生成弱监督的grounding 数据(Kosmo2 做了一个叫 GRIT,数量级大约为 100M 的 groudning 弱监督预训练数据集),将 bounding box 坐标转化为自然语言 token,在其上训练大语言模型用于视觉定位。

和 GroundVLP 相比,Kosmo2 的这条路需要的资源消耗更大(大规模弱监督预训练数据的生成和大模型的训练都需要大量的计算资源,Kosmo2 的总参数量也远大于 GroundVLP),但让人惊喜的是 GroundVLP 在 REC 子任务上的性能甚至优于 Kosmo2:同样为零样本推理,RefCOCO 的 testA 上为 69.21 对 57.42,RefCOCO+ 的 testA 上为 70.56 对 50.73,RefCOCOg 的 test 上为 68.98 对 61.65(Kosmos2 的结果来自其技术报告 [7])。

这启示我们,ALBEF、VinVL 这样的视觉-语言基础模型虽然没有显式在涉及局部对齐的目标上训练,但其中间表示蕴含着丰富的局部对齐信息以完成视觉定位这样的细粒度任务,GroundVLP 已经指出了计算 GradCAM 分数这一巧妙的零样本利用方式,期待未来涌现更多这样的妙思。

outside_default.png

参考文献

outside_default.png

[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.

[2] Li, Junnan, et al. "Align before fuse: Vision and language representation learning with momentum distillation." Advances in neural information processing systems 34 (2021): 9694-9705.

[3] Li, Junnan, et al. "Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation." International Conference on Machine Learning. PMLR, 2022.

[4] Zhou, Xingyi, et al. "Detecting twenty-thousand classes using image-level supervision." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

[5] Selvaraju, Ramprasaath R., et al. "Grad-cam: Visual explanations from deep networks via gradient-based localization." Proceedings of the IEEE international conference on computer vision. 2017.

[6] Zhang, Pengchuan, et al. "Vinvl: Revisiting visual representations in vision-language models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

[7] Peng, Zhiliang, et al. "Kosmos-2: Grounding Multimodal Large Language Models to the World." arXiv preprint arXiv:2306.14824 (2023).

更多阅读

ab9f10e705980fc947b66926f9b52ba5.png

3a29e0e9b68273446fb717c1c9008b6e.png

e90c3061a4d6cf9a0a9decce122ed3d1.png

86fcd2cfc12697908c456fa329ce6b46.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/479892
推荐阅读
相关标签