当前位置:   article > 正文

51-17 视频理解串讲— MViT,Multiscale Vision Transformer 论文精读_mvit视频模型

mvit视频模型

继TimeSformer模型之后,咱们再介绍两篇来自Facebook AI的论文,即Multiscale Vision Transformers以及改进版MViTv2: Improved Multiscale Vision Transformers for Classification and Detection。

本文由深圳季连科技有限公司AIgraphX自动驾驶大模型团队编辑。如有错误,欢迎在评论区指正。由于本司大模型组最近组织阅读的论文较多,为理清相互之间的脉络,画草图如下 <->

MViT,Multiscale Vision Transformers

MViT就是Transformer和多尺度分层建模相融合的产物。

Abstract

通过将多尺度、层次性特征的开创性思想与transformer模型联系起来,我们提出了用于视频和图像识别的多尺度视觉transformer,MViT。多尺度transformer有几个channel-resolution扩展过程。从输入分辨率和一个小的通道维度开始,每个stage分层地扩展通道容量,同时降低空间分辨率。这创建了一个多尺度的特征金字塔,其中早期的层以高空间分辨率运行,以模拟简单的低层次视觉信息,而更深的层则有空间粗糙但复杂的高维特征。我们评估了先前基础架构,它们为密集性质的视觉信号建模,用于各种视频识别任务。在这些任务中,并发vision-transformer依赖大规模外部预训练,并且在计算和参数方面成本高出MViT 5-10倍。我们进一步消除了时间维度,并将我们的模型应用于图

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/227027
推荐阅读
  

闽ICP备14008679号