当前位置:   article > 正文

减小模型训练成本的视频动作识别 Efficient Video Transformers with Spatial-Temporal Token Selection 论文精读笔记

efficient video transformers with spatial-temporal token selection


写在前面

  好久没写博文了,抽空看了一篇,在准备开题报告相关的事。本文主要来自 VALSE 的一个短视频:20220914【视频理解研究进展与未来】吴祖煊:基于Transformer的视频内容理解,感觉很有意思,遂找到这篇论文来精读下。

(PS: 关注一下,点个赞呗,主页更多关于多模态视觉问答、实例分割、目标检测,以及如何配置深度学习训练环境,pytorch使用tricks等精彩博文噢!)

一、Abstract

  正常第一段点题:视频 Transformer 计算成本太大了(

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/593521
推荐阅读
相关标签