当前位置:   article > 正文

【ViViT】ViViT: A Video Vision Transformer 笔记_vivit 训练

vivit 训练

ViViT

摘要:
  • 提出时空的token
  • 将输入分解以变得高效
  • 在小规模数据集上有效训练方法
引言:

vit 之前只用于大规模,因为缺少一些bias

- 文章提出了几个model用于视频分类,pure-transformer
- 如何有效地训练模型
  • 1
  • 2
结论:
  • 提出了视频分类4个模型,
  • 如何在小数据集上高效管理训练大容量模型
  • 未来可以减除对图像预训练模型的依靠
ViViT模型:

两种embedding video clip方法:

  • 在这里插入图片描述

-在这里插入图片描述

构造的结构:

  • Spatio-temporal attention 复杂度随着视频增长

  • Factorised encoder spatial encoder只在相同时间帧上interaction 并加上了cls

  • Factorised self-attention 将第一种结构的self-attention拆成先spatial再temporal

  • Factorised dot-product attention temporal和spatial用不同的头并行计算,然后concat拼接

在这里插入图片描述

通过预训练模型初始化:

  • position embedding 视频模型所需的token是图片模型的几倍,采用”循环“的方式初始化
  • Embedding weights 采用展平的方式使得3d能够采用2d

在这里插入图片描述

​ 或者采用“central frame initialisation”:

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/638229
推荐阅读
相关标签
  

闽ICP备14008679号