当前位置:   article > 正文

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.25-2024.03.01

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.25-2024.03.01

论文目录~

1.Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

标题:熊猫-70M:为 7000 万段视频添加多种跨模态教师字幕

author:Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov

publish:CVPR 2024. Project Page: https://snap-research.github.io/Panda-70M

date Time:2024-02-29

paper pdf:http://arxiv.org/pdf/2402.19479v1

摘要
数据和注释的质量是下游模型质量的上限。虽然存在大量的文本语料库和图像-文本对,但高质量的视频-文本数据却很难收集。首先,人工标注更耗时,因为它需要标注者观看整个视频。其次,视频具有时间维度,由多个场景叠加而成,并显示多个动作。因此,为了建立一个具有高质量字幕的视频数据集,我们提出了一种利用多模态输入(如文字视频描述、字幕和单个视频帧)的自动方法。具体来说,我们从公开的 HD-VILA-100M 数据集中收集了 380 万个高分辨率视频。然后,我们将它们分割成语义一致的视频片段,并应用多种跨模态教师模型来获取每个视频的字幕。接下来,我们在一小部分子集上对检索模型进行微调,人工选择每个视频的最佳字幕,然后在整个数据集中使用该模型选择最佳字幕作为注释。通过这种方法,我们得到了 7000 万个与高质量文字说明配对的视频。我们将该数据集命名为 Panda-70M。我们展示了拟议数据集在三个下游任务中的价值:视频字幕、视频和文本检索以及文本驱动的视频生成。在提出的数据上训练出来的模型在所有任务的大多数指标上都获得了大幅提升。

2.Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction

标题:利用细粒度视觉语义交互进行可通用的整张幻灯片图像分类

author:Hao Li, Ying Chen, Yifei Chen, Wenxian Yang, Bowen Ding, Yuchen Han, Liansheng Wang, Rongshan Yu

publish:Accepted by CVPR 2024

date Time:2024-02-29

paper pdf:http://arxiv.org/pdf/2402.19326v1

摘要
整张幻灯片图像(WSI)分类通常被表述为多实例学习(MIL)问题。最近,视觉语言模型(VLM)在 WSI 分类中表现出了卓越的性能。然而,现有方法利用粗粒度病原学描述进行视觉表征监督,不足以捕捉病原学图像复杂的视觉外观,阻碍了模型在不同下游任务中的通用性。此外,处理高分辨率 WSI 的计算成本也很高。在本文中,我们提出了一种用于 WSI 分类的新型 “细粒度视觉语义交互”(FiVE)框架。该框架旨在利用局部视觉模式和细粒度病理语义之间的相互作用来增强模型的通用性。具体来说,通过精心设计的查询,我们首先利用大型语言模型从各种非标准化的原始报告中提取细粒度病理描述。然后将输出描述重构为用于训练的细粒度标签。通过引入特定任务的细粒度语义(TFS)模块,我们可以让提示捕捉到 WSI 中的关键视觉信息,从而增强表征学习并显著提高泛化能力。此外,考虑到病理视觉模式在组织切片中的冗余分布,我们在训练过程中对视觉实例的子集进行了采样。我们的方法具有强大的泛化能力和很强的可移植性,在 TCGA 肺癌数据集上的表现明显优于同行,在少量实验中准确率至少高出 9.19%。

3.Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models

标题:通过大型视觉语言模型中的对比学习增强视觉文档理解能力

author:Xin Li, Yunfei Wu, Xinghua Jiang, Zhihao Guo, Mingming Gong, Haoyu Cao, Yinsong Liu, Deqiang Jiang, Xing Sun

date Time:2024-02-29

paper pdf:http://arxiv.org/pdf/2402.19014v1

摘要
最近,大型视觉语言模型(LVLMs)的出现在各个领域受到越来越多的关注,尤其是在视觉文档理解(VDU)领域。与传统的视觉语言任务不同,视觉文档理解特别关注包含丰富文档元素的文本场景。尽管如此,细粒度特征的重要性在 LVLM 的研究领域中仍未得到充分探索,导致在文本丰富的场景中表现不佳。在本文中,我们将其简称为细粒度特征折叠问题。为了填补这一空白,我们提出了一个对比学习框架,称为文档对象对比学习(Document Object COntrastive learning,DoCo),专门针对 VDU 的下游任务。DoCo 利用辅助多模态编码器获取文档对象的特征,并将其与 LVLM 视觉编码器生成的视觉特征进行对齐,从而增强了文本丰富场景中的视觉表征能力。这表明,视觉整体表征与文档对象的多模态细粒度特征之间的对比学习可以帮助视觉编码器获取更有效的视觉线索,从而增强 LVLM 对文本丰富的文档的理解。我们还证明了所提出的 DoCo 是一种即插即用的预训练方法,可用于各种 LVLM 的预训练,而不会增加推理过程中的计算复杂度。在 VDU 的多个基准上进行的广泛实验结果表明,配备了我们提出的 DoCo 的 LVLM 可以实现卓越的性能,并缩小 VDU 与一般视觉语言任务之间的差距。

4.Grounding Language Models for Visual Entity Recognition

标题:视觉实体识别的基础语言模型

author:Zilin Xiao, Ming Gong, Paola Cascante-Bonilla, Xingyao Zhang, Jie Wu, Vicente Ordonez

date Time:2024-02-28

paper pdf:http://arxiv.org/pdf/2402.18695v1

摘要
我们介绍了用于视觉实体识别的自回归模型 AutoVER。我们的模型采用检索增强约束生成技术,扩展了自回归多模态大语言模型。它可以缓解域外实体性能低下的问题,同时在需要视觉推理的查询中表现出色。我们的方法通过在没有外部检索器的情况下,与序列到序列目标并行训练硬否定对,学会在巨大的标签空间内区分相似实体。在推理过程中,检索到的候选答案列表通过删除无效的解码路径明确指导语言生成。在最近提出的 Oven-Wiki 基准测试中,所提出的方法在不同的数据集拆分中取得了显著的改进。所见实体数据集的准确率从 32.7% 提高到 61.5%。该方法在未见数据集和查询数据集上的表现也非常出色,达到了两位数。

5.IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding

标题:IBD:通过图像偏置解码缓解大型视觉语言模型中的幻觉

author:Lanyun Zhu, Deyi Ji, Tianrun Chen, Peng Xu, Jieping Ye, Jun Liu

date Time:2024-02-28

paper pdf:http://arxiv.org/pdf/2402.18476v1

摘要
尽管大型视觉语言模型(LVLMs)发展迅速,应用广泛,但仍面临着容易产生幻觉的严峻挑战。过度依赖语言先验被认为是导致这些幻觉的关键因素。在本文中,我们建议通过引入一种新颖的图像偏置解码(IBD)技术来缓解这一问题。我们的方法通过对比传统 LVLM 与图像偏置 LVLM 的预测,得出下一个标记概率分布,从而放大了与图像内容高度相关的正确信息,同时减轻了因过度依赖文本而导致的幻觉错误。我们进一步进行了全面的统计分析,以验证我们方法的可靠性,并设计了一种自适应调整策略,以实现在不同条件下稳健灵活的处理。多个评估指标的实验结果验证了我们的方法,尽管不需要额外的训练数据,只需增加极少的模型参数,就能显著减少 LVLM 中的幻觉,并提高生成响应的真实性。

6.A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision Language Models

标题:大型视觉语言模型的图像推理和描述认知评估基准

author:Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen

date Time:2024-02-28

paper pdf:http://arxiv.org/pdf/2402.18409v2

摘要
尽管大型视觉语言模型(LVLMs)近年来取得了巨大成功,但其认知能力几乎没有得到过全面测试。受人类认知测试中普遍使用的 "偷饼干 "任务的启发,我们提出了一种新的评估基准,利用语义丰富的图像来评估 LVLM 的高级认知能力。它定义了八种推理能力,由图像描述任务和视觉问题解答任务组成。我们对知名 LVLM 的评估结果表明,LVLM 与人类的认知能力仍有很大差距。

7.SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model

标题:SynArtifact:通过视觉语言模型对合成图像中的伪影进行分类和消除

author:Bin Cao, Jianhao Yuan, Yexin Liu, Jian Li, Shuyang Sun, Jing Liu, Bo Zhao

date Time:2024-02-28

paper pdf:http://arxiv.org/pdf/2402.18068v1

摘要
在快速发展的图像合成领域,一个严峻的挑战是存在着复杂的人工痕迹,影响合成图像的感知真实性。为了减少伪像并提高合成图像的质量,我们对视觉语言模型(VLM)作为伪像分类器进行了微调,以自动识别和分类各种伪像,并为进一步优化生成模型提供监督。具体来说,我们开发了一个全面的人工制品分类法,并构建了一个带有人工制品注释的合成图像数据集,用于微调 VLM,命名为 SynArtifact-1K。经过微调的 VLM 在识别人工制品方面表现出卓越的能力,比基线高出 25.66%。据我们所知,这是首次提出这种端到端文物分类任务和解决方案。最后,我们利用 VLM 的输出作为反馈来完善生成模型,以减少人工制品。可视化结果和用户研究表明,经过改进的扩散模型合成的图像质量得到了明显改善。

8.Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction

标题:基于视觉语言模型的字幕评估方法利用了视觉语境提取技术

author:Koki Maeda, Shuhei Kurita, Taiki Miyanishi, Naoaki Okazaki

date Time:2024-02-28

paper pdf:http://arxiv.org/pdf/2402.17969v1

摘要
随着视觉和语言建模技术的不断进步,对机器生成的图像标题进行准确评估仍然至关重要。为了评估更贴近人类偏好的标题,衡量标准需要区分不同质量和内容的标题。然而,传统的度量方法无法超越词语表面匹配或嵌入相似性的比较,因此仍需改进。本文介绍了基于视觉语言模型的字幕评估方法 VisCE 2 ^2 2。我们的方法侧重于视觉上下文,即图像的详细内容,包括对象、属性和关系。通过将其提取并整理成结构化格式,我们用视觉上下文取代了人工撰写的参考文献,帮助视觉语言模型更好地理解图像,从而提高评估性能。通过在多个数据集上进行元评估,我们验证了 VisCE 2 ^2 2 在捕捉标题质量方面优于传统的预训练度量标准,并与人类判断表现出更高的一致性。

9.Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning

标题:在视觉语言表征学习中展示和减少捷径

author:Maurits Bleeker, Mariya Hendriksen, Andrew Yates, Maarten de Rijke

publish:25 pages

date Time:2024-02-27

paper pdf:http://arxiv.org/pdf/2402.17510v1

摘要
视觉语言模型(VLM)主要依靠对比训练来学习图像和字幕的通用表征。我们关注的是一幅图像与多个标题相关联的情况,每个标题既包含所有标题共享的信息,也包含每个标题关于图像所描绘场景的独特信息。在这种情况下,还不清楚对比损失是否足以学习到包含字幕所提供的所有信息的任务最优表征,或者对比学习设置是否鼓励学习一种能使对比损失最小化的简单快捷方式。我们介绍了视觉语言的合成快捷方式:一个将合成快捷方式注入图像-文本数据的训练和评估框架。我们的研究表明,从头开始训练或使用包含这些合成快捷方式的数据进行微调的对比 VLMs,主要学习的是代表快捷方式的特征。因此,对比损失不足以学习任务最优表征,即包含图像和相关标题之间共享的所有任务相关信息的表征。我们在训练和评估框架中研究了两种减少捷径学习的方法:(i) 潜在目标解码和 (ii) 隐式特征修改。我们的经验表明,这两种方法都能提高评估任务的性能,但在使用我们的捷径学习框架进行训练和评估时,只能部分减少捷径学习。因此,我们展示了我们的捷径学习框架在对比性视觉语言表征学习中的难度和挑战。

10.Image-Text Matching with Multi-View Attention

标题:利用多视角注意力进行图像-文字匹配

author:Rui Cheng, Wanqing Cui

date Time:2024-02-27

paper pdf:http://arxiv.org/pdf/2402.17237v1

摘要
现有的图像-文本双流匹配模型在确保检索速度的同时,还显示出良好的性能,受到业界和学术界的广泛关注。这些方法使用单一表示法分别对图像和文本进行编码,并通过余弦相似度或向量内积获得匹配得分。然而,双流模型的性能往往不够理想。一方面,单一表示法难以全面覆盖复杂的内容。另一方面,在这种缺乏互动的框架下,匹配多重含义是一项挑战,从而导致信息被忽略。为了解决上述问题并提高双流模型的性能,我们提出了一种用于双流图像-文本匹配的多视角注意力方法(MVAM)(\textbf{M}multi-\textbf{V}iew \textbf{A}ttention \textbf{M}model)。它首先通过不同的注意力头和不同的视图代码学习多个图像和文本表征。然后将这些表征串联成一个表征进行匹配。此外,还使用了多样性目标来促进注意力头之间的多样性。通过这种方法,模型能够对不同视图的图像和文本进行编码,并关注更多的关键点。因此,我们可以得到包含更多信息的表征。在进行检索任务时,可以从不同方面计算图像和文本的匹配分数,从而获得更好的匹配性能。在 MSCOCO 和 Flickr30K 上的实验结果表明,我们提出的模型比现有模型有了改进。进一步的案例研究表明,不同的注意头可以关注不同的内容,并最终获得更全面的表示。

11.VCD: Knowledge Base Guided Visual Commonsense Discovery in Images

标题:VCD:知识库引导下的图像视觉常识发现

author:Xiangqing Shen, Yurun Song, Siwei Wu, Rui Xia

date Time:2024-02-27

paper pdf:http://arxiv.org/pdf/2402.17213v1

摘要
视觉常识包含有关视觉数据中对象属性、关系和行为的知识。发现视觉常识可以提供对图像更全面、更丰富的理解,并增强计算机视觉系统的推理和决策能力。然而,现有的视觉常识发现研究中定义的视觉常识都是粗粒度和不完整的。在这项工作中,我们从自然语言处理中的常识知识库 ConceptNet 中汲取灵感,系统地定义了视觉常识的类型。在此基础上,我们引入了一项新任务–视觉常识发现(VCD),旨在提取图像中不同物体所包含的不同类型的细粒度常识。为此,我们从视觉基因组(Visual Genome)和概念网络(ConceptNet)中构建了一个用于 VCD 的数据集(VCDD),其中包含 10 万多张图像和 1400 万个对象-常识对。此外,我们还提出了一种生成模型(VCDM),该模型将视觉语言模型与指令调整相结合,以解决 VCD 问题。自动和人工评估证明了 VCDM 在 VCD 方面的能力,尤其是在隐含常识发现方面优于 GPT-4V。VCD 在视觉常识评估和视觉问题解答等两项下游任务中的应用进一步证明了它的价值。数据和代码将发布在 GitHub 上。

12.GROUNDHOG: Grounding Large Language Models to Holistic Segmentation

标题:GROUNDHOG:将大型语言模型与整体分割相结合

author:Yichi Zhang, Ziqiao Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi Gao, Joyce Chai

publish:Website: https://groundhog-mllm.github.io/

date Time:2024-02-26

paper pdf:http://arxiv.org/pdf/2402.16846v1

摘要
大多数多模态大语言模型(MLLM)都是通过因果语言建模来学习从语言到物体的接地,其中接地物体是通过边界框作为位置标记序列来捕捉的。这种模式缺乏像素级表征,而像素级表征对于精细视觉理解和诊断非常重要。在这项工作中,我们介绍了 GROUNDHOG,这是一种通过将大型语言模型与整体分割相结合而开发的 MLLM。GROUNDHOG 融合了屏蔽特征提取器,并将提取的特征转换为 MLLM 骨干的视觉实体标记,然后通过检索和合并实体屏蔽,将可接地短语连接到统一的接地屏蔽。为了训练 GROUNDHOG,我们通过收集具有丰富注释的分段接地数据集,精心策划了具有多模态多粒度接地功能的接地视觉指令调整数据集 M3G2。我们的实验结果表明,GROUNDHOG 在各种语言接地任务中都取得了优异的性能,无需针对特定任务进行微调,并显著减少了物体幻觉。GROUNDHOG 还能更好地接地复杂形式的视觉输入,并在故障情况下提供易于理解的诊断。

13.Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models

标题:更精细:研究并增强大型视觉语言模型中的细粒度视觉概念识别能力

author:Jeonghwan Kim, Heng Ji

date Time:2024-02-26

paper pdf:http://arxiv.org/pdf/2402.16315v1

摘要
经过指令调整的大型视觉语言模型(LVLMs)的最新进展使这些模型具备了轻松生成高级图像基础解释的能力。虽然这种能力在很大程度上归功于大型语言模型(LLMs)所包含的丰富世界知识,但我们的工作揭示了这些模型在六种不同基准设置的细粒度视觉分类(FGVC)中存在的不足。最近最先进的 LVLM(如 LLaVa-1.5、InstructBLIP 和 GPT-4V)不仅在分类性能方面严重退化,例如,LLaVA-1.5 在斯坦福狗的 EM 中平均下降了 65.58,而且尽管它们具有生成整体图像级描述的能力,却很难根据输入图像中出现的概念生成具有详细属性的准确解释。深入的分析表明,经过指令调整的 LVLMs 表现出模态差距,在给定与同一概念相对应的文本和视觉输入时出现差异,从而阻碍了图像模态利用 LLMs 中丰富的参数知识。为了进一步推动社区在这一方向上的努力,我们提出了一个以属性为中心的多粒度评估基准 Finer,旨在为评估 LVLMs 的细粒度视觉理解能力奠定基础,并显著提高可解释性。

14.Infrared and visible Image Fusion with Language-driven Loss in CLIP Embedding Space

标题:在 CLIP 嵌入空间中利用语言驱动损失实现红外和可见光图像融合

author:Yuhao Wang, Lingjuan Miao, Zhiqiang Zhou, Lei Zhang, Yajun Qiao

date Time:2024-02-26

paper pdf:http://arxiv.org/pdf/2402.16267v1

摘要
红外-可见光图像融合(IVIF)因两种图像模式的高度互补性而备受关注。由于缺乏地面真实融合图像,目前基于深度学习方法的融合输出在很大程度上取决于数学定义的损失函数。由于在没有地面实况的情况下很难用数学方法定义融合图像,因此现有融合方法的性能有限。在本文中,我们首先提出用自然语言来表达 IVIF 的目标,这样可以避免目前损失函数中对融合输出的明确数学建模,充分利用语言表达的优势来提高融合性能。为此,我们提出了一种语言表述的综合融合目标,并利用 CLIP 将相关文本编码到多模态嵌入空间中。然后,通过建立表示融合目标和输入图像模式的嵌入向量之间的关系,在嵌入空间中构建语言驱动的融合模型。最后,通过监督训练得出语言驱动损失,使实际的 IVIF 与嵌入的语言驱动融合模型保持一致。实验表明,与现有技术相比,我们的方法能获得更好的融合效果。

15.TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages

标题:TMT:通过将不同模态作为不同语言处理,实现语音、图像和文本之间的三模态翻译

author:Minsu Kim, Jee-weon Jung, Hyeongseop Rha, Soumi Maiti, Siddhant Arora, Xuankai Chang, Shinji Watanabe, Yong Man Ro

date Time:2024-02-25

paper pdf:http://arxiv.org/pdf/2402.16021v1

摘要
联合处理多模态信息的能力正成为一项重要任务。然而,配对多模态数据的数量有限以及多模态学习所需的大量计算要求阻碍了这一发展。我们提出了一种新颖的三模态翻译(TMT)模型,可在语音、图像和文本等任意模态之间进行翻译。我们引入了一种新观点,将不同的模态解释为不同的语言,并将多模态翻译视为一个成熟的机器翻译问题。为此,我们将语音和图像数据标记为离散标记,从而提供了跨模态的统一界面,并显著降低了计算成本。在拟议的 TMT 中,多模态编码器-解码器进行核心翻译,而特定模态的处理仅在标记化和去标记化阶段进行。我们在所有六种模态翻译任务中对所提出的 TMT 进行了评估。TMT 的性能始终优于单一模式的对应产品,这表明统一任务不仅有利于实用性,而且有利于提高性能。

16.NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation

标题:NaVid:基于视频的 VLM 计划:视觉语言导航的下一步

author:Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, Wang He

date Time:2024-02-24

paper pdf:http://arxiv.org/pdf/2402.15852v2

摘要
视觉语言导航(VLN)是嵌入式人工智能(Embodied AI)的一个关键研究课题,旨在使代理能够根据语言指令在看不见的环境中导航。在这一领域,泛化是一个长期存在的挑战,无论是泛化到非分布场景还是从模拟到真实。在本文中,我们提出了基于视频的大型视觉语言模型(VLM)–NaVid,以缩小这种泛化差距。NaVid 首次展示了 VLM 在没有任何地图、里程表和深度输入的情况下实现最先进水平导航性能的能力。根据人类指令,NaVid 只需要从机器人上配备的单目 RGB 摄像头获取即时视频流,即可输出下一步操作。我们的方案模仿了人类的导航方式,自然而然地摆脱了里程表噪音带来的问题,以及地图或深度输入带来的 Sim2Real 差距。此外,我们基于视频的方法可以有效地将机器人的历史观察结果编码为决策和指令遵循的时空背景。我们使用从 VLN-CE 轨迹中收集的 550k 个导航样本(包括行动规划和指令推理样本)以及 665k 个大规模网络数据来训练 NaVid。广泛的实验表明,NaVid 在模拟环境和真实世界中都实现了 SOTA 性能,显示出卓越的跨数据集和 Sim2Real 传输能力。因此,我们相信我们提出的 VLM 方法不仅为导航代理,也为这一研究领域规划了下一步。

17.Increasing SAM Zero-Shot Performance on Multimodal Medical Images Using GPT-4 Generated Descriptive Prompts Without Human Annotation

标题:使用 GPT-4 生成的描述性提示(无需人工标注)提高多模态医学图像上的 SAM 零点拍摄性能

author:Zekun Jiang, Dongjie Cheng, Ziyuan Qin, Jun Gao, Qicheng Lao, Kang Li, Le Zhang

publish:12 pages, 4 figures, 4 tables

date Time:2024-02-24

paper pdf:http://arxiv.org/pdf/2402.15759v1

摘要
本研究开发并评估了一种新型多模态医学图像零镜头分割算法,名为文本-视觉-提示SAM(TV-SAM),无需任何人工注释。TV-SAM 融合并整合了大型语言模型 GPT-4、视觉语言模型 GLIP 和任意分割模型 (SAM),可从医学图像中自主生成描述性文本提示和视觉边界框提示,从而增强了 SAM 在零镜头分割中的作用。研究在包含八种成像模式的七个公开数据集上进行了全面评估,结果表明 TV-SAM 无需额外培训即可有效地分割各种模式下的未见目标,其性能明显优于 SAM AUTO 和 GSAM,与 SAM BBOX 的金标准边界框提示性能相近,并在 ISIC 和 WBC 等特定数据集上超越了最先进的技术。研究表明,TV-SAM 是一种有效的多模态医学图像零点分割算法,突出了 GPT-4 对零点分割的重要贡献。通过整合 GPT-4、GLIP 和 SAM 等基础模型,可以提高解决专业领域复杂问题的能力。代码见:https://github.com/JZK00/TV-SAM。

18.CLIPose: Category-Level Object Pose Estimation with Pre-trained Vision-Language Knowledge

标题:CLIPose:利用预训练的视觉语言知识进行分类级物体姿态估计

author:Xiao Lin, Minghao Zhu, Ronghao Dang, Guangliang Zhou, Shaolong Shu, Feng Lin, Chengju Liu, Qijun Chen

publish:14 pages, 4 figures, 9 tables

date Time:2024-02-24

paper pdf:http://arxiv.org/pdf/2402.15726v1

摘要
现有的类别级物体姿态估计方法大多致力于从点云模式中学习物体类别信息。然而,由于三维数据收集和标注成本高昂,三维数据集的规模有限。因此,从这些有限的点云样本中提取的类别特征可能并不全面。这促使我们研究是否可以利用其他模态的知识来获取类别信息。受此启发,我们提出了一种新颖的 6D 姿态框架–CLIPose,该框架利用预训练的视觉语言模型来更好地学习物体类别信息,从而充分利用图像和文本模态中丰富的语义知识。为了让三维编码器更有效地学习特定类别的特征,我们通过多模态对比学习,将三种模态在特征空间中的表征统一起来。除了利用 CLIP 模型的预训练知识外,我们还希望它对姿势参数更加敏感。因此,我们引入了一种及时调整方法来微调图像编码器,同时在文本描述中加入旋转和平移信息。CLIPose 在两个主流基准数据集 REAL275 和 CAMERA25 上取得了一流的性能,并在推理过程中实时运行(40FPS)。

19.Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models

标题:Hal-Eval:大型视觉语言模型的通用和细粒度幻觉评估框架

author:Chaoya Jiang, Wei Ye, Mengfan Dong, Hongrui Jia, Haiyang Xu, Ming Yan, Ji Zhang, Shikun Zhang

date Time:2024-02-24

paper pdf:http://arxiv.org/pdf/2402.15721v1

摘要
大型视觉语言模型表现出非凡的能力,但在处理图像与其描述不一致的幻觉时却举步维艰。以往对大型视觉语言模型进行的幻觉评估研究从对象、属性和关系的角度识别幻觉,但忽略了围绕虚构实体进行整体叙述的复杂幻觉。在本文中,我们将介绍一种经过改进的幻觉分类法,其中包括一个新的类别:事件幻觉。然后,我们利用先进的 LLM 生成并过滤由各种类型的幻觉组成的细粒度幻觉数据,并特别关注事件幻觉,从而为在我们的通用评估框架内整合判别和生成评估方法奠定基础。我们提出的基准可以对 LVLM 处理各种幻觉的能力进行独特的评估,使其成为衡量 LVLM 处理幻觉效率的可靠而全面的工具。我们将公布我们的代码和数据。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/180837
推荐阅读
相关标签
  

闽ICP备14008679号