赞
踩
记录视频理解领域的几篇文章吧,由于每篇值得记录的东西不多,所以合在一起。
关于开源框架,有港中文多媒体实验室的MMAction。有设备的就尽量多跑跑模型吧
视频相对于静态图像多了时间维度。静态图像的分类、检测、分割做得相对完善了,视频方面的工作想有创新必须在时间这个维度上钻研。
注意 Action Recognition和Spatio-temporal Action Recognition(又称action localization)的区别。前者只需判断视频的类别,后者要在视频中确定动作从第几帧开始第几帧结束,并在出现的帧上确定包含动作的bounding box。本文介绍的是前者。
文章标题:A Closer Look at Spatiotemporal Convolutions for Action Recognition
首先探讨一下几种形式的时空卷积。
文章标题: Temporal Segment Networks: Towards Good
Practices for Deep Action Recognition
pytorch 实现: https://github.com/yjxiong/tsn-pytorch
Motivation :1,连续的帧信息往往高度相关,所以对帧作密集采样是不必要的 2,之前的方法都要求输入视频为64~120帧,不能广泛地应用
网络结构
由上图所示,一个输入视频被分为 K 段(segment),一个片段(snippet,几帧图像叠加在一起)从它对应的段中随机采样得到。不同片段的类别得分融合,这是一个视频级的预测。然后对所有模式的预测融合产生最终的预测结果。
文中设置K=3,融合用的是平均函数,分类用的是softmax
文章标题 Temporal Relational Reasoning in Videos
本文是对TSN最后融合方式做一个改进。TSN每个snippet独立地预测,而TRN在预测前先进行snippet间的特征融合。另外TRN的输入用的是不同帧数的snippet(different scale)。
下图的框架图一目了然,算法实现流程就是先均匀地采样出不同scale的Segment 来对应 2-frame, 3-frame, …, N-frame relation;然后对每个Segment里小片提取 Spatial feature,进行 MLP 的 temporal fusion,送进分类器;最后将不同scale的分类score叠加来作最后预测值。
图中g是两层MLP。h是一层MLP,其输出维度是类别数。
文章来源: https://arxiv.org/abs/1811.08383
Motivation:3D网络的计算量大,而2D网络没有利用时序信息。提出了时间移位(temporal shift)模块,能够用2D网络对时间建模。即将当前帧的特征图部分通道替换为前一帧或后一帧的通道。
图(a)是原始的特征图(省略了batchsize,w,h这三个与讨论无关的维度),图(b)包括将前一帧和后一帧的通道替换当前帧的通道,适用于离线的方式。视频首尾帧对应位置用零填充。图©仅有前一帧的通道,适用于在线的方式。
temporal shift 模块应该作为原来2D网络的补充(即放在残差分支上,如下图(b)),而不能放在主干网络(如下图(a)),否则会破坏当前帧的空间语义。
下图显示了in-place和residual两种不同方式,以及其他帧特征的不同占比带来的效果。
文章来源:https://arxiv.org/pdf/1812.03982.pdf
Motivation:1,在视频动作识别中,类别语义一般变化得较慢,而动作语义变化得较快 2,人眼有20%的m细胞和80%的p细胞。m细胞在高时间频率下工作,对快速的时间变化有反应,但对空间细节或颜色不敏感。p细胞相反。
所以设计了两路卷积神经网络,一路用来捕获不变或变化较慢的语义信息,称为Slow pathway,一路用来捕获快速变化的语义信息,称为Fast pathway。
网络结构:
Slow分支的帧采样更稀疏,因此会更侧重不变的语义(空间信息),而Fast 分支的帧采样更密集且通道数更少(限制了表达能力),因此会更侧重变化(语义)的语义。
如果想要Fast分支更少关注空间信息,可以对Fast分支的输入作以下尝试:将帧宽高分别减半; 将帧灰度化;换成光流; 换成前后帧之差
为了维持时间维度上的高分辨率,Fast分支没有时间维度的下采样操作(池化或带孔卷积)
Fast分支有侧向连接到Slow分支。这是一个在目标检测和视频理解很常用的手段。可供选择的方法如下:
下面是以resnet50为backbone的SlowFast
Tips
Motivation
之前的方法捕获长范围特征需要累积很多层网络,导致学习效率太低,所有提出一种全局操作模块
网络结构
1,首先对输入的特征图X分别进行
1
×
1
×
1
1\times 1\times1
1×1×1卷积压缩通道数得到
θ
,
ϕ
,
g
\theta, \phi,g
θ,ϕ,g特征
2,reshape
θ
,
ϕ
\theta, \phi
θ,ϕ,合并上述三个特征除通道数意外的维度,作矩阵相乘,再归一化系数0~1之间。这一步就是计算X的自相关系数,即所有像素对其他像素的关系。
3,将自相关矩阵和g相乘,然后恢复原来的通道数,做残差。
non-local是Attention机制的应用。其实融合全局信息可以直接用全连接层。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。