赞
踩
论文介绍了MVBench,这是一个全新的多模态视频理解基准测试,旨在评估多模态大型语言模型(MLLMs)在视频理解方面的能力。
MVBench定义了20个视频理解任务,这些任务需要对视频的时间维度有深入理解,不能仅通过单个帧来解决。
作者提出了一种从静态到动态的方法,将先前定义的静态图像任务转化为具有动态目标的视频任务,涵盖了从感知到认知的一系列时间理解技能。
通过将静态图像任务增加时间上下文,例如将图像中的位置任务转换为视频中的移动方向任务,从而创建了一系列需要对整个视频进行推理的动态任务。
利用现有的视频基准测试和大型语言模型(LLMs),自动将视频注释转换为多项选择的问答对,用于评估MLLMs的性能。
选择了11个公共视频基准测试,并根据任务定义自动生成问题和答案选项。
为了增加视频的多样性并保证任务的时间敏感性,作者从现有的基准测试中精心选择了视频数据集,排除了过短或过长的视频片段,选择了中等时长的视频。
为了平衡问题难度,作者设计了选择标准,确保问题既不过简单也不过复杂,以避免模型给出相似的响应。
利用模板构建答案选项,或者使用LLM基于任务定义生成问题,并从现有注释中创建答案选项。
为了强调MLLMs的时间敏感性,作者设计了详细的系统提示,鼓励模型仔细观察视频内容并回答问题。
指令微调数据生成。通过chat
3阶段训练。视频语言对齐、视频语言链接、指令微调
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。