当前位置:   article > 正文

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.05-2024.02.10

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.05-2024.02.10

论文目录~

1.ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling

标题:ViGoR:利用细粒度奖励建模改进大型视觉语言模型的视觉基础

author:Siming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li

publish:10 pages, 3 figures

date Time:2024-02-09

paper pdf:http://arxiv.org/pdf/2402.06118v1

摘要
通过将自然语言理解、大型语言模型的生成能力和知识广度与图像感知相结合,最近的大型视觉语言模型(LVLM)在现实世界中展现出了前所未有的推理能力。然而,生成的文本往往会受到视觉输入基础不准确的影响,从而导致错误,如幻觉不存在的场景元素、遗漏场景的重要部分以及推断出错误的属性和物体之间的关系。为了解决这些问题,我们引入了一个新颖的框架,即 ViGoR(通过细粒度奖励建模实现视觉接地),它利用细粒度奖励建模来显著增强 LVLM 的视觉接地能力,使其优于预训练基线。这种改进是通过使用成本更低的人工评估(而不是完全监督)以及自动化方法有效实现的。我们在多个基准上通过大量指标展示了我们方法的有效性。此外,我们还构建了一个具有挑战性的综合数据集,专门用于验证 LVLM 的视觉接地能力。最后,我们计划发布我们的人类注释,其中包括约 16,000 张图像和生成的文本对,并提供细粒度评估,为社区的相关研究做出贡献。

2.CLIP-Loc: Multi-modal Landmark Association for Global Localization in Object-based Maps

标题:CLIP-Loc:基于物体的地图中全球定位的多模式地标关联

author:Shigemichi Matsuzaki, Takuma Sugino, Kazuhito Tanaka, Zijun Sha, Shintaro Nakaoka, Shintaro Yoshizawa, Kazuhiro Shintani

publish:7 pages, 7 figures. Accepted to IEEE International Conference on
Robotics and Automation (ICRA) 2024

date Time:2024-02-08

paper pdf:http://arxiv.org/pdf/2402.06092v1

摘要
本文介绍了一种利用基于物体的地图和摄像头图像进行全球定位的多模态数据关联方法。在使用基于物体的地图进行全局定位或重新定位时,现有方法通常会将检测到的物体和地标与相同物体类别的所有可能组合进行匹配,然后使用 RANSAC 或暴力搜索提取异常值。由于候选对应关系呈指数增长,随着地标数量的增加,这种方法变得不可行。在本文中,我们建议用自然语言描述标记地标,并使用视觉语言模型(VLM)根据与图像观察结果的概念相似性提取对应关系。通过利用详细的文本信息,与仅使用对象类别的方法相比,我们的方法能有效地提取对应关系。通过实验,我们证明了与基线方法相比,所提出的方法能够以更少的迭代次数实现更精确的全局定位,显示了其高效性。

3.Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing

标题:探索 GPT-4V 中的视觉文化意识:综合探究

author:Yong Cao, Wenyan Li, Jiaang Li, Yifei Yuan, Antonia Karamolegkou, Daniel Hershcovich

publish:work in process

date Time:2024-02-08

paper pdf:http://arxiv.org/pdf/2402.06015v2

摘要
近年来,预训练的大型视觉语言模型因其卓越的性能而备受关注。尽管人们从不同角度对这些模型进行了大量评估,但最先进的 GPT-4V 模型的视觉文化意识程度仍有待探索。为了填补这一空白,我们使用 MaRVL 基准数据集对 GPT-4V 进行了广泛的测试,旨在研究其在视觉理解方面的能力和局限性,重点关注文化方面。具体来说,我们引入了三个与视觉相关的任务,即标题分类、成对标题和文化标签选择,以系统地深入研究细粒度的视觉文化评估。实验结果表明,GPT-4V 在识别文化概念方面表现出色,但在低资源语言(如泰米尔语和斯瓦希里语)中仍表现较弱。值得注意的是,通过人工评估,GPT-4V 在图像标题任务中的文化相关性比原始的 MaRVL 人工注释更强,这为未来视觉文化基准的构建提供了一个前景广阔的解决方案。

4.Question Aware Vision Transformer for Multimodal Reasoning

标题:用于多模态推理的问题感知视觉转换器

author:Roy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben Avraham, Oren Nuriel, Shai Mazor, Ron Litman

date Time:2024-02-08

paper pdf:http://arxiv.org/pdf/2402.05472v1

摘要
视觉语言(VL)模型已成为研究的重点,在多模态推理方面取得了显著进展。这些架构通常包括一个视觉编码器、一个大语言模型(LLM)和一个将视觉特征与 LLM 表示空间相匹配的投影模块。尽管它们取得了成功,但仍然存在一个关键的局限性:视觉编码过程仍然与用户查询脱钩,用户查询通常以图像相关问题的形式提出。因此,由此产生的视觉特征可能无法最佳地适应图像的特定查询元素。为了解决这个问题,我们引入了 QA-ViT,这是一种用于多模态推理的问题感知视觉转换器方法,它将问题感知直接嵌入到视觉编码器中。这种集成可产生动态视觉特征,重点关注与所提问题相关的图像方面。QA-ViT 与模型无关,可以高效地集成到任何 VL 架构中。广泛的实验证明了将我们的方法应用于各种多模态架构的有效性,从而在各种任务中取得了一致的改进,并展示了其在增强视觉和场景文本理解方面的潜力。

5. λ λ λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

标题: λ λ λ-ECLIPSE:利用 CLIP 潜在空间建立多概念个性化文本到图像扩散模型

author:Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang

publish:Project page: https://eclipse-t2i.github.io/Lambda-ECLIPSE/

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.05195v1

摘要
尽管个性化文本到图像(P-T2I)生成模型最近取得了进展,但主体驱动的 T2I 仍然充满挑战。主要瓶颈包括:1)密集的训练资源需求;2)超参数敏感性导致输出不一致;3)平衡新颖视觉概念和构图排列的复杂性。我们首先重申 T2I 扩散模型的核心理念,以解决上述局限性。当代主体驱动的 T2I 方法主要依赖于潜在扩散模型(LDM),该模型通过交叉注意层促进 T2I 映射。虽然 LDM 具有明显的优势,但 P-T2I 方法对这些扩散模型的潜在空间的依赖极大地增加了资源需求,导致结果不一致,并需要对单个所需的图像进行无数次迭代。最近,ECLIPSE 展示了一种资源效率更高的路径,用于训练基于 UnCLIP 的 T2I 模型,从而避免了对扩散文本到图像先验的需求。在此基础上,我们推出了 λ \lambda λ-ECLIPSE。我们的方法说明,有效的 P-T2I 不一定取决于扩散模型的潜在空间。 λ \lambda λ-ECLIPSE仅用34M个参数就实现了单个、多个受试者和边缘引导的T2I个性化,并且使用160万图像-文本交错数据仅用74个GPU小时就完成了训练。通过广泛的实验,我们还发现 λ \lambda λ-ECLIPSE 在保持概念对齐性能的同时,在成分对齐方面超越了现有基线,甚至资源利用率也显著降低。

6.MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

标题:MLLM-as-a-Judge:用视觉语言基准评估多模态 LLM 即法官

author:Dongping Chen, Ruoxi Chen, Shilin Zhang, Yinuo Liu, Yaochen Wang, Huichi Zhou, Qihui Zhang, Pan Zhou, Yao Wan, Lichao Sun

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.04788v1

摘要
多模态大语言模型(MLLMs)近来备受关注,在人工通用智能领域显示出巨大的潜力。然而,评估多模态大语言模型的实用性面临着相当大的挑战,这主要是由于缺乏符合人类偏好的多模态基准。受 LLM 中的 LLM-as-a-Judge(LLM 即法官)的启发,本文引入了一种称为 MLLM-as-a-Judge(MLLM 即法官)的新基准,以评估 MLLM 在协助法官方面的能力,包括三个不同的任务:评分评估、配对比较和批量排序。我们的研究发现,虽然 MLLM 在配对比较中表现出了类似人类的卓越辨别力,但在打分评估和批量排名任务中,MLLM 与人类的偏好存在明显差异。此外,MLLMs 在判断方面仍然面临挑战,包括各种偏差、幻觉反应和不一致性,即使是 GPT-4V 这样的高级模型也是如此。这些发现强调了将 MLLMs 作为完全可靠的评估工具进行改进和进一步研究的迫切需要。代码和数据集见 https://github.com/Dongping-Chen/MLLM-as-a-Judge。

7.Code as Reward: Empowering Reinforcement Learning with VLMs

标题:代码即奖励:用 VLM 增强强化学习能力

author:David Venuto, Sami Nur Islam, Martin Klissarov, Doina Precup, Sherry Yang, Ankit Anand

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.04764v1

摘要
经过预先训练的视觉语言模型(VLM)能够理解视觉概念、描述复杂任务并将其分解为子任务,还能就任务完成情况提供反馈。在本文中,我们旨在利用这些能力来支持强化学习(RL)代理的训练。原则上,VLM 非常适合这一目的,因为它们可以自然地分析基于图像的观察结果,并对学习进度提供反馈(奖励)。然而,VLM 的推理计算成本很高,因此经常查询它们以计算奖励会大大降低 RL 代理的训练速度。为了应对这一挑战,我们提出了一个名为 “代码即奖励”(VLM-CaR)的框架。VLM-CaR 通过代码生成从 VLM 生成密集奖励函数,从而大大减轻了直接查询 VLM 的计算负担。我们的研究表明,通过我们的方法生成的密集奖励在各种离散和连续环境中都非常准确,而且在训练 RL 策略时比原始的稀疏环境奖励更有效。

8.Open-Vocabulary Calibration for Vision-Language Models

标题:视觉语言模型的开放词汇校准

author:Shuoyuan Wang, Jindong Wang, Guoqing Wang, Bob Zhang, Kaiyang Zhou, Hongxin Wei

publish:Preprint

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.04655v2

摘要
视觉语言模型(VLM)已成为一种强大的工具,在处理图像识别、文本驱动的视觉内容生成和视觉聊天机器人等各种开放词汇任务中显示出强大的能力。近年来,人们将大量精力和资源投入到改进 VLM 下游性能的适应性方法上,尤其是像及时学习这样的参数高效微调方法。然而,微调 VLM 的置信度校准问题在很大程度上被忽视了。本文弥补了这一空白,系统地研究了提示学习中的置信度校准问题,并揭示了现有的校准方法不足以解决这一问题,尤其是在开放词汇环境中。为了解决这个问题,我们提出了一种简单而有效的方法,称为 “距离感知校准”(DAC),它以预测的文本标签与基类之间的距离为指导,对温度进行缩放。在 11 个不同的下游数据集上使用 7 种不同的提示学习方法进行的实验证明了 DAC 的有效性,它在不牺牲推理速度的情况下实现了很高的效率。

9.LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors

标题:LLM 遇见 VLM:利用细粒度描述符提升开放词汇对象检测能力

author:Sheng Jin, Xueying Jiang, Jiaxing Huang, Lewei Lu, Shijian Lu

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.04630v1

摘要
受视觉语言模型(VLM)在图像分类任务中出色的零误差能力的启发,通过将广泛的 VLM 知识提取到检测器训练中,开放词汇物体检测吸引了越来越多的关注。然而,大多数现有的开放词汇检测器仅通过将区域嵌入与分类标签(如自行车)对齐来学习,而忽视了视觉语言模型将视觉嵌入与物体部件的细粒度文本描述(如踏板和铃铛)对齐的能力。本文介绍的 DVDet 是一种描述符增强型开放词汇检测器,它引入了条件上下文提示和分层文本描述符,可实现精确的区域-文本对齐以及一般的开放词汇检测训练。具体来说,条件上下文提示将区域嵌入转化为类似图像的表示,可直接集成到一般的开放词汇检测训练中。此外,我们还引入了大型语言模型作为交互式隐式知识库,从而能够迭代挖掘和完善视觉导向的文本描述符,实现精确的区域-文本对齐。在多个大规模基准测试中进行的广泛实验表明,DVDet 的性能始终远远优于最先进的技术。

10.ScreenAI: A Vision-Language Model for UI and Infographics Understanding

标题:ScreenAI:用于理解用户界面和信息图表的视觉语言模型

author:Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma

publish:Revision notes: 1) In Appendix I, added dataset location for ScreenQA
Short in Appendix I. 2) In Table 4, updated evaluation numbers for Screen
Annotation and Complex Screen QA benchmarks as the datasets are updated. 3)
Updated Figure 4 to reflect the changes in evaluation numbers described in
2). 4) Minor revisions in other places

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.04615v2

摘要
屏幕用户界面(UI)和信息图表有着相似的视觉语言和设计原则,在人类交流和人机交互中发挥着重要作用。我们介绍了 ScreenAI,这是一种专门用于理解用户界面和信息图的视觉语言模型。我们的模型通过 pix2struct 灵活的修补策略改进了 PaLI 架构,并在独特的混合数据集上进行了训练。这种混合数据集的核心是一项新颖的屏幕注释任务,在这项任务中,模型必须识别用户界面元素的类型和位置。我们使用这些文本注释向大型语言模型描述屏幕,并自动生成大规模的问题解答(QA)、用户界面导航和总结训练数据集。我们进行了消融研究,以证明这些设计选择的影响。与类似规模的模型相比,ScreenAI 在仅有 5B 参数的情况下,在基于 UI 和信息图的任务(多页 DocVQA、WebSRC、MoTIF 和 Widget Captioning)上取得了新的一流成果,在其他任务(图表 QA、DocVQA 和 InfographicVQA)上取得了新的最佳性能。最后,我们发布了三个新数据集:一个侧重于屏幕注释任务,另外两个侧重于问题解答。

11.FM-Fusion: Instance-aware Semantic Mapping Boosted by Vision-Language Foundation Models

标题:FM-Fusion:由视觉语言基础模型推动的实例感知语义映射

author:Chuhao Liu, Ke Wang, Jieqi Shi, Zhijian Qiao, Shaojie Shen

publish:Accepted by IEEE RA-L

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.04555v1

摘要
基于监督对象检测器的语义映射对图像分布很敏感。在真实世界环境中,物体检测和分割性能可能会大幅下降,从而阻碍语义映射在更广泛领域中的应用。另一方面,视觉语言基础模型的开发展示了跨数据分布的强大零点转移性。这为构建可通用的实例感知语义映射提供了机会。因此,这项工作探讨了如何从基础模型生成的物体检测中提升实例感知语义映射。我们提出了一种概率标签融合方法,从开放集标签测量中预测近集语义类别。实例细化模块可合并因分割不一致而导致的过度分割实例。我们将所有模块整合为一个统一的语义映射系统。在读取 RGB-D 输入序列时,我们的工作会逐步重建实例感知语义映射。我们在 ScanNet 和 SceneNN 数据集中评估了我们方法的零拍摄性能。在 ScanNet 语义实例分割任务中,我们的方法达到了 40.3 的平均精度(mAP)。它明显优于传统的语义映射方法。

12.ColorSwap: A Color and Word Order Dataset for Multimodal Evaluation

标题:ColorSwap:用于多模态评估的颜色和词序数据集

author:Jirayu Burapacheep, Ishan Gaur, Agam Bhatia, Tristan Thrush

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.04492v1

摘要
本文介绍了 ColorSwap 数据集,该数据集旨在评估和提高多模态模型在匹配物体颜色方面的能力。该数据集由 2,000 个独特的图像-标题对组成,并分成 1,000 个示例。每个示例包括一个标题-图片对,以及一个 "颜色交换 "对。我们遵循 Winoground 模式:一个示例中的两个标题具有相同的单词,但颜色单词被重新排列以修饰不同的对象。该数据集是通过一种新颖的自动标题和图像生成混合方式创建的,其中也有人工参与。我们对图像-文本匹配(ITM)和视觉语言模型(VLM)进行了评估,发现即使是最新的模型在这项任务中也仍然不够强大。在我们的主要 VLM 指标上,GPT-4V 和 LLaVA 的得分率分别为 72% 和 42%,不过如果采用更先进的提示技术,它们的得分率可能会有所提高。在主要 ITM 指标上,对比模型(如 CLIP 和 SigLIP)的表现接近于偶然性(分别为 12% 和 30%),不过非对比 BLIP ITM 模型的表现更强(87%)。我们还发现,在少于 2,000 个示例上进行微调,可显著提高这项分布外词序理解任务的性能。数据集在这里:https://github.com/Top34051/colorswap。

13.EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

标题:EVA-CLIP-18B:将 CLIP 扩展到 180 亿个参数

author:Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang

date Time:2024-02-06

paper pdf:http://arxiv.org/pdf/2402.04252v1

摘要
扩大对比语言图像预训练(CLIP)对于增强视觉和多模态模型的能力至关重要。我们推出的 EVA-CLIP-18B 是迄今为止最大、最强大的开源 CLIP 模型,拥有 180 亿个参数。EVA-CLIP-18B 仅用了 60 亿个训练样本,就在 27 个广受认可的图像分类基准中取得了 80.7% 的零次最高准确率,远远超过了其前身 EVA-CLIP(50 亿个参数)和其他开源 CLIP 模型。值得注意的是,我们观察到 EVA-CLIP 的性能随着模型规模的扩大而不断提高,尽管其训练数据集保持不变,即来自 LAION-2B 和 COYO-700M 的 20 亿图像-文本对。这个数据集是公开的,比其他最先进的 CLIP 模型所采用的内部数据集(如 DFN-5B、WebLI-10B)小得多。EVA-CLIP-18B 展示了 EVA 式弱到强视觉模型缩放的潜力。通过公开我们的模型权重,我们希望能促进未来在视觉和多模态基础模型方面的研究。

14.CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

标题:CogCoM:通过操作链训练大型视觉语言模型,深入研究细节

author:Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang

publish:17 pages, 7 figures

date Time:2024-02-06

paper pdf:http://arxiv.org/pdf/2402.04236v1

摘要
视觉语言模型(VLMs)已经证明了其广泛的可行性,这要归功于将视觉指令与答案相一致的大量训练。然而,这种确凿无疑的对齐方式会导致模型忽略关键的视觉推理,并进一步导致在处理细致的视觉问题时出现失败和不忠实的回答。在本文中,我们提出了 “操作链”(Chain of Manipulations)这一机制,它能让VLMs通过一系列操作来解决问题,其中每个操作都是指对视觉输入的操作,这些操作可以是通过先前训练获得的内在能力(如接地),也可以是模仿人类的行为(如放大)。这种机制鼓励 VLM 生成具有视觉推理证据的忠实响应,并允许用户追踪可解释路径中的错误原因。因此,我们对 CogCoM 进行了训练,CogCoM 是一种通用的 17B VLM,具有基于内存的兼容架构,并赋予了这种推理机制。实验表明,我们的模型在 3 个类别的 8 个基准测试中取得了最先进的性能,并且通过有限的数据训练步骤迅速获得了具有竞争力的性能。代码和数据可在 https://github.com/THUDM/CogCoM 上公开获取。

15.Exploring Low-Resource Medical Image Classification with Weakly Supervised Prompt Learning

标题:利用弱监督提示学习探索低资源医学图像分类

author:Fudan Zheng, Jindong Cao, Weijiang Yu, Zhiguang Chen, Nong Xiao, Yutong Lu

publish:Accepted by Pattern Recognition

date Time:2024-02-06

paper pdf:http://arxiv.org/pdf/2402.03783v1

摘要
支持临床辅助诊断的医学图像识别技术的大多数进展都遇到了挑战,原因是医疗领域资源匮乏,注释非常昂贵且专业性强。通过相关的医学文本提示,利用大规模预训练视觉语言模型的可转移表征,可以缓解资源匮乏的问题。然而,现有的预训练视觉语言模型需要领域专家精心设计医疗提示,这大大增加了临床医生的负担。为了解决这个问题,我们提出了一种弱监督提示学习方法 MedPrompt 来自动生成医疗提示,它包括一个无监督预训练视觉语言模型和一个弱监督提示学习模型。无监督预训练视觉语言模型利用医学图像与相应医学文本之间的自然相关性进行预训练,无需任何人工注释。弱监督提示学习模型仅利用数据集中的图像类别来指导提示中特定类别向量的学习,而提示中其他上下文向量的学习则无需人工注释指导。据我们所知,这是第一个自动生成医疗提示的模型。有了这些提示,预训练的视觉语言模型就可以摆脱人工注释和人工提示设计对专家的强烈依赖。实验结果表明,使用我们自动生成的提示语的模型优于全镜头学习的手工制作的提示语模型,只需极少量的标记样本就能进行少镜头学习,并在零镜头图像分类方面达到卓越或相当的准确性。建议的提示生成器是轻量级的,因此可以嵌入到任何网络架构中。

16.MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

标题:MobileVLM V2:更快、更强的视觉语言模型基线

author:Xiangxiang Chu, Limeng Qiao, Xinyu Zhang, Shuang Xu, Fei Wei, Yang Yang, Xiaofei Sun, Yiming Hu, Xinyang Lin, Bo Zhang, Chunhua Shen

date Time:2024-02-06

paper pdf:http://arxiv.org/pdf/2402.03766v1

摘要
我们介绍了MobileVLM V2,它是在MobileVLM基础上大幅改进的视觉语言模型系列,证明了将新颖的架构设计、为移动VLM量身定制的改进训练方案和丰富的高质量数据集策划巧妙地结合在一起,可以大大提高VLM的性能。具体来说,与规模更大的 3B VLM 相比,MobileVLM V2 1.7B 在标准 VLM 基准测试中取得了更好或相当的性能。值得注意的是,我们的 3B 模型优于 7B+ 规模的各种 VLM。我们的模型将在 https://github.com/Meituan-AutoML/MobileVLM 发布。

17.The Instinctive Bias: Spurious Images lead to Hallucination in MLLMs

标题:本能偏差:虚假图像导致 MLLM 产生幻觉

author:Tianyang Han, Qing Lian, Rui Pan, Renjie Pi, Jipeng Zhang, Shizhe Diao, Yong Lin, Tong Zhang

date Time:2024-02-06

paper pdf:http://arxiv.org/pdf/2402.03757v1

摘要
大型语言模型(LLMs)最近取得了显著进展,多模态大型语言模型(MLLMs)的出现赋予了大型语言模型视觉能力,使其在各种多模态任务中表现出色。然而,当遇到某些图像和文本输入时,GPT-4V 等功能强大的 MLLM 仍然会严重失效。在本文中,我们发现了一类令 MLLMs 感到困惑的典型输入,它们由高度相关但与答案不一致的图像组成,导致 MLLMs 产生幻觉。为了量化这种影响,我们提出了 CorrelationQA,这是第一个评估虚假图像幻觉程度的基准。该基准包含 13 个类别中的 7,308 个文本-图像对。基于提出的 CorrelationQA,我们对 9 种主流 MLLM 进行了全面分析,结果表明它们都不同程度地存在这种本能偏差。我们希望,我们策划的基准和评估结果有助于更好地评估 MLLM 在出现误导图像时的稳健性。该资源可在 https://github.com/MasaiahHan/CorrelationQA 中获取。

18.A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications

标题:大型语言模型中的提示工程系统调查:技术与应用

author:Pranab Sahoo, Ayush Kumar Singh, Sriparna Saha, Vinija Jain, Samrat Mondal, Aman Chadha

publish:9 pages, 2 figures

date Time:2024-02-05

paper pdf:http://arxiv.org/pdf/2402.07927v1

摘要
提示工程已成为扩展大型语言模型(LLM)和视觉语言模型(VLM)功能不可或缺的技术。这种方法利用被称为提示的特定任务指令,在不修改核心模型参数的情况下提高模型功效。提示不需要更新模型参数,只需根据给定的提示诱发所需的模型行为,就能将预训练模型无缝集成到下游任务中。提示可以是提供上下文以指导模型的自然语言指令,也可以是激活相关知识的学习矢量表示。这一新兴领域已经在从问题解答到常识推理的各种应用中取得了成功。然而,目前仍缺乏对各种提示工程方法和技术的系统整理和理解。为了弥补这一不足,本调查报告按应用领域分类,对提示工程的最新进展进行了结构化概述。对于每一种提示方法,我们都会提供一份摘要,详细介绍提示方法、其应用、所涉及的模型以及所使用的数据集。我们还深入探讨了每种方法的优势和局限性,并提供了分类图和表格,总结了每种提示技术的数据集、模型和关键点。这种系统性分析有助于更好地了解这一快速发展的领域,并通过揭示提示工程面临的挑战和机遇促进未来的研究。

19.CLIP Can Understand Depth

标题:CLIP 可以理解深度

author:Dunam Kim, Seokju Lee

date Time:2024-02-05

paper pdf:http://arxiv.org/pdf/2402.03251v1

摘要
最近关于将 CLIP 推广到单目深度估算的研究表明,在网络抓取数据上预先训练的 CLIP 无法有效地得出图像斑块与深度相关提示之间的适当相似性。在本文中,我们对 CLIP 进行了调整,使其能够在不微调其原始视觉语言对齐的情况下,通过密集预测实现高质量的单目深度估计。通过联合训练一个紧凑的去卷积解码器和一个名为 "镜像 "的微小可学习嵌入矩阵(作为其文本编码器的静态提示),CLIP 能够理解深度。利用这种方法,我们的模型在纽约大学深度 v2 数据集和 KITTI 数据集上表现出了与之前几种最先进的纯视觉模型相媲美的惊人性能,并以很大的优势超越了所有基于 CLIP 的深度估计模型。有关时间深度一致性和空间连续性的实验表明,我们提出的框架可以有效地完善 CLIP 的先验知识。此外,对镜面的消融研究证明,尽管没有给出任何以人类方式书写的提示,但由此产生的模型不仅利用了图像编码器的知识,还利用了文本编码器的知识来估计深度。这项研究表明,通过最小限度的调整,视觉语言基础模型(如 CLIP)的先验知识甚至可以推广到预训练学习具有挑战性的领域。我们推动未来的工作重点放在使用非人类语言提示调整视觉语言模型的次优先验知识的方法上,从而实现与特定任务的最先进方法相媲美的性能。

20.Unsupervised semantic segmentation of high-resolution UAV imagery for road scene parsing

标题:用于道路场景解析的高分辨率无人机图像的无监督语义分割

author:Zihan Ma, Yongshang Li, Ronggui Ma, Chen Liang

date Time:2024-02-05

paper pdf:http://arxiv.org/pdf/2402.02985v1

摘要
在解析无人机图像中的道路场景时面临两个挑战。首先,无人机图像的高分辨率给处理带来了困难。其次,有监督的深度学习方法需要大量手动注释才能训练出稳健准确的模型。本文介绍了一种利用视觉语言模型和计算机视觉基础模型最新进展的无监督道路解析框架。首先,采用视觉语言模型来高效处理超大分辨率的无人机图像,以快速检测图像中感兴趣的道路区域。随后,利用视觉基础模型 SAM 为没有类别信息的道路区域生成掩码。然后,一个自监督表示学习网络从所有掩码区域中提取特征表示。最后,应用无监督聚类算法对这些特征表示进行聚类,并为每个聚类分配 ID。将屏蔽区域与相应的 ID 结合起来,生成初始伪标签,然后启动迭代自我训练过程,进行常规语义分割。在不依赖任何人工标注的情况下,所提出的方法在开发数据集上实现了令人印象深刻的 89.96% 的 mIoU。特别值得一提的是,所提出的方法具有非凡的灵活性,它甚至超越了人工定义类别的限制,能够从数据集本身获取新类别的知识。

21.Image-Caption Encoding for Improving Zero-Shot Generalization

标题:改进零镜头泛化的图像字幕编码

author:Eric Yang Yu, Christopher Liao, Sathvik Ravi, Theodoros Tsiligkaridis, Brian Kulis

date Time:2024-02-05

paper pdf:http://arxiv.org/pdf/2402.02662v1

摘要
视觉语言模型的最新进展是将对比方法与生成方法相结合,从而在下游推理任务(如零镜头图像分类)中达到最先进的水平(SOTA)。然而,这些用于图像分类的模型一直存在的问题是它们的分布外(OOD)泛化能力。我们首先证明,当一个 OOD 数据点被错误分类时,通常可以在 Top-K 预测类别中找到正确的类别。为了将模型预测引向顶级预测类别中的正确类别,我们提出了图像-字幕编码(ICE)方法,这是一种简单直接的方法,仅在评估时直接加强图像条件预测和字幕条件预测之间的一致性。直观地说,我们利用生成的字幕的独特属性来引导我们在 Top-K 预测类别中寻找正确的类别标签。我们的研究表明,我们的方法可以很容易地与其他 SOTA 方法相结合,从而将 Top-1 OOD 准确率平均提高 0.5%,在具有挑战性的数据集上最高可提高 3%。我们的代码: https://github.com/Chris210634/ice

22.Vision-Language Models Provide Promptable Representations for Reinforcement Learning

标题:视觉语言模型为强化学习提供可提示表征

author:William Chen, Oier Mees, Aviral Kumar, Sergey Levine

date Time:2024-02-05

paper pdf:http://arxiv.org/pdf/2402.02651v2

摘要
人类可以利用背景世界知识快速学习新行为。相比之下,使用强化学习(RL)训练的代理通常要从头开始学习行为。因此,我们提出了一种新方法,利用在互联网规模数据上预先训练的视觉语言模型(VLMs)中编码的大量通用和可索引的世界知识来实现强化学习。我们利用视觉语言模型初始化策略,将其作为可提示的表征:嵌入以视觉观察为基础,根据视觉语言模型的内部知识编码语义特征,并通过提供任务上下文和辅助信息的提示激发出来。我们在 Minecraft 和 Habitat 中的机器人导航任务中对我们的方法进行了评估。我们发现,我们在通用 VLM 提取的嵌入上训练的策略优于在通用、非提示图像嵌入上训练的同等策略。我们还发现,我们的方法优于指令跟随方法,与特定领域的嵌入式方法性能相当。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/238909
推荐阅读
相关标签
  

闽ICP备14008679号