赞
踩
论文下载链接:https://arxiv.org/pdf/2201.04676.pdf
代码链接:https://github.com/Sense-X/UniFormer
高维视频具有大量的局部冗余和复杂的全局依赖关系,而该研究主要是由3D卷积神经网络和视觉Transformer驱动。3D卷积虽然能抑制局部冗余,但由于接受域有限,它缺乏捕获全局依赖的能力;视觉Transformer在self-attention的帮助下擅长捕捉全局依赖,但由于各层token之间存在盲目相似性比较,限制了减少局部冗余。
为了克服时空冗余和依赖的问题,本文提出Unified transFormer (UniFormer)框架,如上图所示。每个UniFormer block主要由三部分组成:Dynamic Position Embedding (DPE), Multi-Head Relation Aggregator (MHRA), 和Feed-Forward Network (FFN)。最核心是MHRA和DPE的设计:
实验主要在两个数据集中进行:widely-used Kinetics-400,Kinetics-600。在数据集Something-Something V1&V2进行迁移学习的验证。
1) 与 Convolution+Transformer网络对比
2)与SOTA方法对比
3)消融实验
UniFormer vs. Convolution: Does transformer-style FFN help?和How much does local MHRA help?(如下图a)
UniFormer vs. Transformer: Is joint or divided spatiotemporal attention better?和Is our UniFormer more transferable?(如上图a和下图c)
Does dynamic position embedding matter to UniFormer?
通过动态位置嵌入,在ImageNet和Kinetics-400上,UniFormer将top-1精度提高0.5%和1.7%。
4)ImageNet数据集上SOTA方法对比
写这篇博客仅是为了方便自己,有任何表述不正确的,请大家多多指教O(∩_∩)O
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。