赞
踩
论文:https://arxiv.org/pdf/2404.03384.pdf
代码:https://github.com/ziplab/LongVLM
LongVLM是一种高效的长视频理解方法,它通过大型语言模型(LLMs)来增强对长视频的理解。
针对现有VideoLLM在处理长视频时因无法精细理解而面临的挑战,LongVLM采用了一种简单有效的方法,提出了以下解决方案:
具体问题与解法
问题1: 处理长视频需要模型能够处理大量的视觉令牌,导致计算成本高昂。
问题2: 现有模型无法精确识别长视频中的细节信息,如特定颜色或正在修理的具体部件。
解法拆解
子解法1:均匀采样视频帧和特征提取 使用预训练的视觉编码器(如CLIP-ViT-L/14)提取每帧的视觉特征,包括[CLS]令牌和最后第二层的补丁特征。
子解法2:局部特征聚合和时间序列维护 通过令牌合并模块将每个短期片段内的补丁特征聚合成一组紧凑的令牌,以获得每个片段的局部特征,并将这些特征按时间顺序连接。
子解法3:全局语义信息整合 将来自视频帧的[CLS]令牌平均化以代表整个视频的全局语义信息,并将这些全局信息与每个短期片段的特征结合,然后输入到LLM中。
主要贡献
LongVLM的提出有效地解决了长视频理解的挑战,其结合局部和全局信息的策略为视频内容理解领域提供了新的视角和方法。
例子背景:假设我们有一个5分钟长的视频,记录了一个手工艺人在工作坊中从头到尾制作一个木制桌子的过程。
这个视频涵盖了多个关键活动,包括选择木材、切割、打磨和组装等。
均匀采样和特征提取:
局部特征聚合和时间序列维护:
全局语义信息整合:
LongVLM的方法,包括其总体架构、局部特征聚合过程和全局语义信息整合方式。
通过细化各个组成部分的作用和逻辑,我们可以更清晰地理解LongVLM如何实现对长视频的细粒度理解。
图展示了所提出的LongVLM(长视频理解的大型语言模型)的总体架构。
从图中可以看出,LongVLM的流程包括以下几个主要步骤:
均匀采样视频帧:首先从视频中均匀采样T帧。
视觉编码器:对采样出的每帧视频独立地使用视觉编码器提取帧级特征。
视频划分:将输入视频划分成S个片段,每个片段包含K帧。
局部特征的聚合:在每个片段内应用层次化的令牌合并模块来获取紧凑的局部特征。
序列连接:将片段级特征顺序连接起来,显式地保留了长视频中多个短期片段的时间顺序。
全局语义特征的整合:收集[CLS]令牌并通过平均池化来聚合全局语义特征。
特征融合:将全局特征与局部特征序列连接起来形成视频表示。
投影层:投影层将视频表示转换为适合LLM处理的格式。
大型语言模型(LLM):最终,将投影后的视觉特征与标记化的系统指令和用户查询结合,并输入到LLM以生成响应。
此图还显示了模型中不同组件的参数更新状态,标识为冰雪晶体的部分表示参数在此过程中是冻结的,而火焰图标的部分表示参数在训练过程中会更新。
这表明LongVLM在不同阶段利用了不同的训练策略。
此外,通过图示的步骤性描述,我们可以了解到该模型如何从输入视频中提取关键信息,并最终生成对用户查询的响应。
子解法1:视觉编码器 用于独立地提取每个视频帧的帧级特征,包括补丁特征和[CLS]令牌。
子解法2:局部特征序列的创建 将长视频分解为短期片段,对每个片段应用令牌合并模块,生成紧凑的片段级特征,这些特征按顺序连接,显式保留短期片段在长视频中的时间顺序。
子解法3:全局语义特征的整合 通过汇集和平均每个帧的[CLS]令牌,形成代表整个视频全局语义的特征,与局部特征序列一起输入到LLM。
LongVLM通过将长视频分解为多个短期片段并聚合每个片段的局部空间-时间特征,同时通过整合全局语义信息,提出了一种既能捕获细粒度局部信息又能保留视频整体上下文的方法。
这种结合局部和全局信息的策略,使得LongVLM能够实现对长视频内容的精细理解和响应生成,克服了现有方法在处理长视频时细节理解不足的问题。
不同于依赖全局语义进行长视频理解的传统方法,LongVLM提供了一种直接且有效的方法,用于实现长期视频中的精细级别理解。
这部分文本描述了LongVLM模型的实验设置、主要结果、消融研究和定性结果。以下是各个部分的中文概述和针对问题与解法的精细化分析。
数据集和评估指标:使用VideoChatGPT基准和ANET-QA等数据集对模型进行量化评估。涵盖了多个评估方面如正确性信息、细节取向、上下文理解等。
实现细节:使用CLIP-ViT-L/14作为视觉编码器,Vicuna-7B-v1.1作为LLM,并在VideoChatGPT-100K数据集上微调。
基于视频的生成基准:LongVLM在细节取向和一致性方面相较于现有模型有显著提升。
零样本视频问答:在三个零样本视频QA数据集上均达到了最高准确率。
局部特征聚合的影响:
全局语义整合的影响:
M的影响:
E的影响:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。