当前位置:   article > 正文

国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)...

visual grouding toolkit

关注公众号,发现CV技术之美

本文分享 CVPR 2022 的一篇论文『Improving features Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning』,由国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!

详细信息如下:

5c77d0cc0196b32ea715448a37992968.png

  • 论文链接:https://arxiv.org/abs/2205.00272

  • 项目链接:https://github.com/yangli18/VLTVG

      01      

摘要


Visual grounding是一项定位自然语言表达所指示目标的任务。现有的方法将通用目标检测框架扩展到这个问题上。他们将Visual grounding建立在来自预先生成的proposals或anchors,并将这些特征与文本嵌入融合,以定位文本提到的目标。然而,从这些阶段预定义的位置建模视觉特征可能无法充分利用文本查询中的视觉交叉模态文本和属性信息,这限制了解码器的性能。

在本文中,作者提出了一个基于Transformer的框架,通过建立文本条件下的辨别特征和执行多阶段跨模态推理来实现精确的Visual grounding。具体而言,作者开发了一个视觉语言验证模块,将视觉特征集中在与文本描述相关的区域,同时抑制不相关的区域。作者还设计了一种语言引导的特征编码器来聚合目标对象的视觉上下文,以提高对象的区分性。

为了从编码后的视觉特征中提取目标,作者进一步提出了一种多级交叉模态解码器,用于迭代推测图像和文本之间的相关性,以实现精确的目标定位。在五个广泛使用的数据集上进行的大量实验验证了本文提出的组件的有效性,并展示了SOTA的性能。

      02      

Motivation

Visual grounding的目的是通过自然语言的表达来定位图像中所指的对象或区域。这项任务因其在弥合视觉感知和语言表达之间的差距方面的巨大潜力而受到越来越多的关注。这种技术的发展对于其他多模态推理任务也非常重要。在Visual grounding中,所指对象通常由语言表达中的一条或多条信息指定。这些信息可能包括对象类别、外观属性和视觉关系上下文等。因此,为了避免推理中的歧义,充分利用文本信息并为Visual grounding建模有区别的视觉特征至关重要。

现有的方法,无论是两阶段的还是一阶段的,都将Visual grounding视为检测到的候选区域的排序问题。两阶段方法通常首先检测一组对象proposal,然后将其与语言查询匹配,以检索排名靠前的proposal。

一阶段方法将文本嵌入与图像特征直接融合,生成密集检测,从中选择可信度最高的检测。因为这些方法基于一般的目标检测器,其推理程序依赖于所有可能候选区域的预测,这使得性能受到预定方案质量或预定anchor配置的限制。此外,它们用区域特征(对应于预测的方案)或点特征(密集anchor框)来表示候选对象,以与文本嵌入匹配或融合。

对于捕捉语言描述中提到的详细视觉概念或上下文,此类特征表示可能不太灵活。这种不灵活性可能会增加识别目标对象的难度。虽然有些方法利用模块化注意力、图形和树结构来更好地建模视觉和语言之间的关系,但它们的处理pipeline很复杂,性能仍然受到对象proposal输入的限制。

最近,transformer在自然语言处理和

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/697085
推荐阅读
相关标签
  

闽ICP备14008679号