赞
踩
相关链接:arxiv github
关键字:Video Understanding、State Space Model、Efficiency、Long-context Modeling、Self-Distillation
为了应对视频理解中局部冗余和全局依赖性的双重挑战,本项工作创新性地将Mamba模型适配到视频领域,提出了VideoMamba模型。该模型克服了现有3D卷积神经网络和视频Transformer的限制。其线性复杂度算子能有效进行长期建模,这一点对于高分辨率长视频理解至关重要。通过广泛的评估,VideoMamba展现了四大核心能力:(1)可扩展性:得益于新颖的自我蒸馏技术,在没有进行大规模数据集预训练的情况下,在视觉领域实现可扩展;(2)敏感性:能够识别具有细微动作差异的短期行动;(3)长视频理解能力上的优越性,展示了对比传统特征模型的显著进步;(4)与其他模态的兼容性,展示了在多模态环境中的鲁棒性。通过这些独特优点,VideoMamba为视频理解树立了新的标杆,为全面的视频理解提供了可伸缩且高效的解决方案。
以下是VideoMamba与其他模型在短期视频数据集上比较的结果:
模型 | K400(场景相关) | SthSthV2(时间相关) |
---|---|---|
SlowFastR101 | 79.8% top-1 acc | 63.1% top-1 acc |
TimeSformer | 80.7% top-1 acc | 62.5% top-1 acc |
ViViT | 81.3% top-1 acc | 65.4% top-1 acc |
VideoMamba-Ti | 80.3% top-1 acc | 66.2% top-1 acc |
VideoMamba-S | 82.7% top-1 acc | 68.1% top-1 acc |
VideoMamba-M | 83.3% top-1 acc | 68.4% top-1 acc |
在众多模型中,VideoMamba展示了优秀的性能。
VideoMamba通过其独特的状态空间模型,在短期和长期视频内容理解上展现了巨大潜力。凭借效率和效果,VideoMamba有望成为长视频理解领域的基石。所有代码和模型均已开源,以促进未来研究工作。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。