减小模型训练成本的视频动作识别 Efficient Video Transformers with Spatial-Temporal Token Selection 论文精读笔记

作者：菜鸟追梦旅行 | 2024-05-19 15:25:00

踩

efficient video transformers with spatial-temporal token selection

减小模型训练成本的视频动作识别 Efficient Video Transformers with Spatial-Temporal Token Selection 论文笔记

一、Abstract
二、引言
三、相关工作
四、Spatial-Temporal Token Selection
五、实验
结论

写在前面

好久没写博文了，抽空看了一篇，在准备开题报告相关的事。本文主要来自 VALSE 的一个短视频：20220914【视频理解研究进展与未来】吴祖煊：基于Transformer的视频内容理解，感觉很有意思，遂找到这篇论文来精读下。

论文地址：Efficient Video Transformers with Spatial-Temporal Token Selection
代码地址：https://github.com/wangjk666/STTS
收录于：ECCV 2022

（PS: 关注一下，点个赞呗，主页更多关于多模态视觉问答、实例分割、目标检测，以及如何配置深度学习训练环境，pytorch使用tricks等精彩博文噢！）

一、Abstract

正常第一段点题：视频 Transformer 计算成本太大了(声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/593521