赞
踩
vit 之前只用于大规模,因为缺少一些bias
- 文章提出了几个model用于视频分类,pure-transformer
- 如何有效地训练模型
两种embedding video clip方法:
-
构造的结构:
Spatio-temporal attention 复杂度随着视频增长
Factorised encoder spatial encoder只在相同时间帧上interaction 并加上了cls
Factorised self-attention 将第一种结构的self-attention拆成先spatial再temporal
Factorised dot-product attention temporal和spatial用不同的头并行计算,然后concat拼接
通过预训练模型初始化:
或者采用“central frame initialisation”:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。