当前位置:   article > 正文

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.10-2024.01.15

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.10-2024.01.15

1.Concept-Guided Prompt Learning for Generalization in Vision-Language Models

标题:概念引导提示学习,促进视觉语言模型的泛化

author:Yi Zhang, Ce Zhang, Ke Yu, Yushun Tang, Zhihai He

publish:Accepted by AAAI 2024

date Time:2024-01-15

paper pdf:http://arxiv.org/pdf/2401.07457v1

摘要
对比语言-图像预训练(CLIP)模型在建立文本和图像之间的跨模态连接方面表现出卓越的功效,通过微调在广泛的下游应用中取得了令人印象深刻的性能。然而,对于泛化任务,目前的 CLIP 微调方法(如 CoOp 和 CoCoOp)在一些细粒度数据集上表现出相对较低的性能。我们认识到,其根本原因在于以前的这些方法只将全局特征投射到提示中,而忽略了各种视觉概念,如颜色、形状和大小,而这些概念可以自然地跨领域转移,并在泛化任务中发挥关键作用。为了解决这个问题,我们在本研究中提出了视觉语言模型的概念引导提示学习(CPL)。具体来说,我们利用 CLIP 学习到的知识创建视觉概念缓存,从而实现概念引导提示。为了完善文本特征,我们进一步开发了将多级视觉特征转换为文本特征的投影仪。我们发现,这种概念引导提示学习方法能够增强视觉和语言模式之间的一致性。广泛的实验结果表明,与目前最先进的方法相比,我们的 CPL 方法显著提高了泛化能力。

2.WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual World Knowledge

标题:WisdoM:通过融合上下文世界知识改进多模态情感分析

author:Wenbin Wang, Liang Ding, Li Shen, Yong Luo, Han Hu, Dacheng Tao

date Time:2024-01-12

paper pdf:http://arxiv.org/pdf/2401.06659v2

摘要
通过利用各种数据模式(如文本、图像),情感分析正在迅速发展。然而,之前的大多数作品都依赖于表面信息,忽视了对上下文世界知识(例如,从给定的图像和文本对中获得但超出其范围的背景信息)的整合,从而限制了其实现更好的多模态情感分析(MSA)的能力。在本文中,我们提出了一个名为 WisdoM 的插件框架,以利用从大型视觉语言模型(LVLM)中获得的上下文世界知识来增强 MSA。WisdoM 利用 LVLMs 全面分析图像和相应文本,同时生成相关上下文。为了减少上下文中的噪声,我们还引入了一种无需训练的上下文融合机制。在不同粒度的 MSA 任务中进行的实验一致表明,与几种最先进的方法相比,我们的方法具有实质性的改进(在五种先进方法中平均 F1 分数+1.96%)。

3.Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained Evaluation

标题:普罗米修斯-视觉:视觉语言模型作为精细评估的评判标准

author:Seongyun Lee, Seungone Kim, Sue Hyun Park, Geewook Kim, Minjoon Seo

publish:Work in progress

date Time:2024-01-12

paper pdf:http://arxiv.org/pdf/2401.06591v1

摘要
评估由视觉语言模型(VLM)生成的长篇回复具有挑战性。它不仅需要检查 VLM 是否遵循了给定的指令,还需要验证文本输出是否正确地基于给定的图像。受最近用 LM 评估 LM 的方法的启发,在这项工作中,我们提议用 VLM 评估 VLM。为此,我们提出了一个名为 "感知集合 "的新反馈数据集,其中包含 15K 个用户在评估过程中可能会关心的自定义评分标准。利用感知集合,我们训练了 Prometheus-Vision,它是首个开源 VLM 评估模型,能够在评估过程中理解用户定义的评分标准。在开源模型中,Prometheus-Vision 与人类评估者和 GPT-4V 的皮尔逊相关性最高,这表明它在对 VLM 进行透明、可访问的评估方面非常有效。我们将代码、数据集和模型开源于 https://github.com/kaistAI/prometheus-vision

4.UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding

标题:UMG-CLIP:用于理解开放世界的统一多粒度视觉通才

author:Bowen Shi, Peisen Zhao, Zichen Wang, Yuhang Zhang, Yaoming Wang, Jin Li, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian, Xiaopeng Zhang

publish:The paper is undergoing internal legal review and will be resubmitted
once it passes the review

date Time:2024-01-12

paper pdf:http://arxiv.org/pdf/2401.06397v2

摘要
以对比语言-图像预训练(CLIP)为代表的视觉-语言基础模型,在联合理解视觉和文本任务方面获得了越来越多的关注。然而,现有方法主要侧重于训练模型来匹配全局图像表征与文本描述,从而忽略了局部区域与相应文本标记之间的关键对齐。本文通过多粒度配准扩展了 CLIP。值得注意的是,我们特意构建了一个新的数据集,其中包含不同粒度的伪注释,包括图像级、区域级和像素级标题/标记。因此,我们开发了一个统一的多粒度学习框架,命名为 UMG-CLIP,同时赋予模型跨越不同细节级别的多功能感知能力。UMG-CLIP 配备了参数高效调整功能,超越了目前广泛使用的 CLIP 模型,并在各种图像理解基准(包括开放世界识别、检索、语义分割和全视角分割任务)上取得了一流的性能。我们希望 UMG-CLIP 能成为推动视觉语言基础模型发展的重要选择。

5.AffordanceLLM: Grounding Affordance from Vision Language Models

标题:AffordanceLLM:从视觉语言模型看亲和力

author:Shengyi Qian, Weifeng Chen, Min Bai, Xiong Zhou, Zhuowen Tu, Li Erran Li

date Time:2024-01-12

paper pdf:http://arxiv.org/pdf/2401.06341v1

摘要
情境定位指的是找到可以与之交互的物体区域的任务。这是一项基本但极具挑战性的任务,因为一个成功的解决方案需要从多个方面全面了解场景,包括物体及其部件的检测、定位和识别,场景的地理空间配置/布局,三维形状和物理,以及物体的功能和潜在的人机交互。许多知识都是隐藏的,超出了图像内容和有限训练集中的监督标签的范围。在本文中,我们尝试利用预训练的大规模视觉语言模型中丰富的世界、抽象和人-物-交互知识,来提高当前可负担性基础的泛化能力。在 AGD20K 基准测试中,我们提出的模型在野外物体承受能力定位方面比其他竞争方法有显著的性能提升。我们还进一步证明,即使在训练过程中物体和动作都没有被看到,该模型也能将随机互联网图像中的物体的可承受性基础化。项目网站: https://jasonqsy.github.io/AffordanceLLM/

6.Distilling Vision-Language Models on Millions of Videos

标题:在数百万视频中提炼视觉语言模型

author:Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan

publish:Tech report. Project page:
https://zhaoyue-zephyrus.github.io/video-instruction-tuning

date Time:2024-01-11

paper pdf:http://arxiv.org/pdf/2401.06129v1

摘要
视觉语言模型最近的进步主要归功于丰富的图像文本数据。我们的目标是将这一成功经验复制到视频语言模型中,但人类编辑的视频文本数据根本不够用。因此,我们利用合成的教学数据,从强大的图像语言基线出发,对视频语言模型进行微调。由此产生的视频语言模型可用于自动标注数百万个视频,从而生成高质量的字幕。我们的研究表明,改编后的视频语言模型在各种视频语言基准测试中表现出色。例如,在开放式 NExT-QA 上,它比之前的最佳结果高出 2.8%。此外,我们的模型还能为以前未见过的视频生成详细的描述,与现有方法相比,能提供更好的文本监督。实验表明,在这些自动生成的字幕上对比训练的视频语言双编码器模型比同样利用视觉语言模型的最强基线模型好 3.8%。在 MSR-VTT 零镜头文本到视频检索方面,我们的最佳模型比最先进的方法高出 6%。

7.GroundingGPT:Language Enhanced Multi-modal Grounding Model

标题:GroundingGPT:语言增强型多模态接地模型

author:Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang

date Time:2024-01-11

paper pdf:http://arxiv.org/pdf/2401.06071v4

摘要
多模态大型语言模型在不同模态的各种任务中表现出了令人印象深刻的性能。然而,现有的多模态模型主要强调捕捉每种模态中的全局信息,而忽视了感知跨模态局部信息的重要性。因此,这些模型缺乏有效理解输入数据细粒度细节的能力,限制了它们在需要更细致理解的任务中的表现。为了解决这一局限性,我们迫切需要开发能够跨模态理解细粒度信息的模型,从而提高它们在各种任务中的适用性。在本文中,我们提出了语言增强型多模态接地模型 GroundingGPT。除了像其他多模态模型一样捕捉全局信息外,我们提出的模型在要求详细理解输入中局部信息的任务中表现出色。它能精确识别和定位图像中的特定区域或视频中的特定时刻。为了实现这一目标,我们设计了一个多样化的数据集构建管道,从而产生了一个用于模型训练的多模态、多粒度数据集。有关我们模型的代码、数据集和演示,请访问 https://github.com/lzw-lzw/GroundingGPT。

8.Do Vision and Language Encoders Represent the World Similarly?

标题:视觉编码器和语言编码器对世界的表述相似吗?

author:Mayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Mohamed El Amine Seddik, Karttikeya Mangalam, Noel E. O’Connor

publish:Preprint, Under Review

date Time:2024-01-10

paper pdf:http://arxiv.org/pdf/2401.05224v1

摘要
对齐文本图像编码器(如 CLIP)已成为视觉语言任务的实际模型。此外,特定模态编码器在各自领域也取得了令人瞩目的成绩。这就提出了一个核心问题:既然单模态视觉编码器和语言编码器从根本上代表的是同一个物理世界,那么它们之间是否存在一致性?通过使用中心核对齐(CKA)分析图像字幕基准上视觉模型和语言模型的潜在空间结构,我们发现未对齐编码器和对齐编码器的表示空间在语义上是相似的。在对齐编码器(如 CLIP)不存在统计相似性的情况下,我们发现未对齐编码器之间可能存在匹配,而无需任何训练。我们将其归结为种子图匹配问题,利用图之间的语义相似性,并提出了两种方法–快速二次赋值问题优化和基于 CKA 度量的新型本地化匹配/检索。我们在包括跨语言、跨域标题匹配和图像分类在内的多个下游任务中演示了这种方法的有效性。

9.MISS: A Generative Pretraining and Finetuning Approach for Med-VQA

标题:MISS:针对 Med-VQA 的生成式预训练和微调方法

author:Jiawei Chen, Dingkang Yang, Yue Jiang, Yuxuan Lei, Lihua Zhang

date Time:2024-01-10

paper pdf:http://arxiv.org/pdf/2401.05163v2

摘要
医疗视觉问题解答(VQA)是一项具有挑战性的多模态任务,视觉语言预训练(VLP)模型可以有效提高泛化性能。然而,医疗领域的大多数方法都将 VQA 视为答案分类任务,很难将其应用到实际应用场景中。此外,由于医学图像的私密性和注释过程的昂贵性,用于预训练的大规模医学图像-文本对数据集非常缺乏。在本文中,我们针对医疗 VQA 任务提出了一种基于多任务自监督学习的大规模框架(MISS)。与现有方法不同,我们将医学 VQA 视为生成任务。我们统一了文本编码器和多模态编码器,并通过多任务学习调整图像-文本特征。此外,我们还提出了一种 "转移和字幕 "方法,利用大型语言模型(LLM)扩展了单模态图像数据集的特征空间,从而使这些传统的医学视觉领域任务数据能够应用于 VLP。实验表明,我们的方法能在较少的多模态数据集上取得出色的结果,并展示了生成式 VQA 模型的优势。代码和模型权重将在论文被接受后发布。

10.Less is More : A Closer Look at Multi-Modal Few-Shot Learning

标题:少即是多:近距离观察多模式少镜头学习

author:Chunpeng Zhou, Haishuai Wang, Xilu Yuan, Zhi Yu, Jiajun Bu

date Time:2024-01-10

paper pdf:http://arxiv.org/pdf/2401.05010v1

摘要
少量图像学习(Few-shot Learning)旨在利用非常有限的可用图像来学习和区分新的类别,这在深度学习领域是一个重大挑战。最近的研究人员试图利用这些罕见类别的额外文本或语言信息与预先训练的语言模型来促进学习,从而部分缓解监督信号不足的问题。然而,到目前为止,文本信息和预训练语言模型的全部潜力在少量学习中一直被低估,导致性能提升有限。为了解决这个问题,我们提出了一个简单而有效的框架,专门设计用于利用文本信息和语言模型来完成少量学习任务。更详细地说,我们明确利用了预训练语言模型的零点学习能力和可学习提示。而且,我们只需将视觉特征与文本特征直接添加到推理中,而无需像以前的作品那样设计复杂的融合模块。此外,我们还应用了自组装和蒸馏技术来进一步增强这些组件。我们在四个广泛使用的少量照片数据集上进行的大量实验表明,我们的简单框架取得了令人印象深刻的成果。尤其值得注意的是,它在单次学习任务中表现出色,分类准确率平均超过了最先进方法的 3.0%。\footnote{我们将在获得认可后公开所提框架的源代码。}.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/238915
推荐阅读
相关标签
  

闽ICP备14008679号