赞
踩
这项工作集中在训练单一的视觉关系检测器(VRD),该检测器可以预测来自多个数据集的标签空间的并集。由于不同数据集的标签体系不一致,合并标签是一个挑战。作者提出了 UniVRD,一种新颖的自下而上的方法,利用视觉和语言模型(VLMs)来统一视觉关系检测。VLMs 提供了对齐良好的图像和文本嵌入,其中相似的关系被优化以在语义上统一。UniVRD 在 HICO-DET 上达到了 38.07 mAP,比当前最佳的自下而上的 HOI 检测器相对提高了 60%。更重要的是,当模型扩展时,统一检测器的性能可以与特定数据集的模型相媲美,并且能够实现进一步的性能提升。
拓展阅读:
视觉关系检测(Visual Relationship Detection,简称VRD)旨在识别和理解图像中物体之间的语义关系。这种关系通常是成对的,并且可以用一个谓词(predicate)来描述物体间的相互作用或连接方式。
具体来说,视觉关系检测包括以下几个关键步骤:
物体检测:首先,系统需要检测图像中的物体,并为每个物体确定一个边界框(bounding box)。
关系识别:在物体被检测到之后,系统需要识别这些物体之间的语义关系。这些关系可以是“人-物”(human-object)或“物-物”(object-object)的交互,例如“坐在椅子上”、“拿着手机”或“狗追猫”。
谓词预测:对于每一对物体,系统需要预测一个或多个谓词来描述它们之间的关系。谓词通常是动词或动词短语,如“sitting on”、“holding”、“chasing”。
上下文理解:视觉关系检测通常需要考虑图像的上下文信息,以便更准确地识别关系。例如,相同的物体在不同的上下文中可能有不同的关系。
输出关系三元组:最终,系统输出的是一组关系三元组(triplets),每个三元组包含主语(subject)、谓词(predicate)和宾语(object),例如(“人”,“坐在”,“椅子”)。
视觉关系检测对于高级视觉理解任务至关重要,如场景图生成(Scene Graph Generation)、视觉问答(Visual Question Answering)和图像字幕生成(Image Captioning)。这些任务通常需要对图像内容进行深入的语义分析,而不仅仅是简单的物体识别。通过理解物体间的关系,计算机能够生成更丰富、更准确的描述和解释,从而更好地模拟人类的视觉感知和认知能力。
现有的视觉关系检测(VRD)模型通常只针对单一数据源进行训练,这限制了它们的泛化能力和可扩展性。作者试图解决的问题是如何训练一个能够统一多个具有异构标签空间的数据集的单一视觉关系检测器。
对象检测器基于标准的Vision Transformer(ViT)构建,但进行了一些修改以适应对象检测任务:
关系解码器的目标是从一组检测到的物体中识别出相互之间的关系,并将这些关系表示为“主题-谓词-对象”的三元组(〈subject, predicate, object〉)。
通过将预测的关系嵌入 r ∈ R 与实例嵌入 z ∈ Z 进行比较来找到主语和宾语框的索引。具体来说,我们使用 FFN 将每个关系嵌入 投影到主语嵌入 和宾语嵌入 中。主语索引 和宾语索引 通过以下方式获得:
其中 sim(·,·) 测量两个嵌入之间的余弦相似度。
概念解释:
文本提示被送入文本编码器,编码器通过其内部的嵌入层和Transformer层处理文本,生成文本嵌入。文本嵌入具有高维空间中的连续值,能够捕捉文本的语义信息,包括同义词、反义词、上下文含义等。
使用相似度度量(如余弦相似性)来比较实例嵌入或关系嵌入与文本嵌入之间的相似度,从而实现分类:
作者提出了一种基于 VLMs 的自下而上的方法,用于训练单一统一的视觉关系检测模型,该模型在多个数据集上表现出竞争力。通过扩展模型规模,可以在 VRD 任务上获得显著的性能提升。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。