你好赵伟

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

【ViViT】ViViT: A Video Vision Transformer 笔记_vivit 训练

作者：你好赵伟 | 2024-05-28 15:56:07

赞

踩

vivit 训练

ViViT

摘要：

提出时空的token
将输入分解以变得高效
在小规模数据集上有效训练方法

引言：

vit 之前只用于大规模，因为缺少一些bias

- 文章提出了几个model用于视频分类，pure-transformer
- 如何有效地训练模型
1
2

结论：

提出了视频分类4个模型，
如何在小数据集上高效管理训练大容量模型
未来可以减除对图像预训练模型的依靠

ViViT模型：

两种embedding video clip方法：

- 在这里插入图片描述

构造的结构：

Spatio-temporal attention 复杂度随着视频增长
Factorised encoder spatial encoder只在相同时间帧上interaction 并加上了cls
Factorised self-attention 将第一种结构的self-attention拆成先spatial再temporal
Factorised dot-product attention temporal和spatial用不同的头并行计算，然后concat拼接

在这里插入图片描述

通过预训练模型初始化：

position embedding 视频模型所需的token是图片模型的几倍，采用”循环“的方式初始化
Embedding weights 采用展平的方式使得3d能够采用2d

在这里插入图片描述

或者采用“central frame initialisation”：

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/638229

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号