赞
踩
Learning Spatiotemporal Features with 3D Convolutional Networks
paper:C3D
提出了使用C3D网络来提取视频的空间时间特征。相比于2D网络,3D网络能够更好的提取特征
Two-Stream Convolutional Networks for Action Recognition in Videos
paper:Two-Stream
提出了two-stream架构,由空间和时间两个网络组成,并且使用多任务训练的方法,即在全连接层后接两个softmax,不同的softmax对应不同的数据集,在最后BP算法时,把两个softmax层的输出加和,作为总的误差执行BP算法更新网络的权值。
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
paper:TSN
提出了TSN模型,基于长范围时间结构(long-range temporal structure)建模,结合了稀疏时间采样策略(sparse temporal sampling strategy)和视频级监督(video-level supervision)来保证使用整段视频时学习得有效和高效(通过将整段视频分段然后采样的方式,使得网络能够处理更长时间的视频)。
Temporal Relational Reasoning in Videos
paper:TRN
提出了一个TRN模型,提取 Temporal Relational Reasoning in Videos,与C3D和I3D相比,有更强的可解释性网络。论文中也做了一个有关时序的实验,比较打乱的时间顺序和正常的时间顺序,也就是视频的帧打乱和正常。
TRN 和 TSN相比有一些不同,TSN的fusion函数采用average pooling,TRN采用MLP( concat feature – ReLU – FC – ReLU – FC)的结构来实现。
TRN通过时间维度上Multi-scale 特征融合,来提高video-level鲁棒性,起码能抗快速动作和慢速动作干扰。
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
paper:I3D
提出了I3D(Two-Stream Inflated 3D ConvNet )模型,基于Inception-V1模型,把双流的思想加到3D-ConvNet当中来
On the Integration of Optical Flow and Action Recognition
paper:光流与行为识别的结合研究
对光流在行为识别中的作用进行了深入的研究,探讨了为什么光流在行为识别中是有效的,在行为识别中怎么样的光流才是好的以及我们应该如何改进光流。作者基于实验得出一些结论:
1.光流在行为识别模型中很有效,并不是因为它能够捕捉运动信息,而主要是因为光流对图像外观的不变性。
2.光流算法通常使用终点误差(end-point-error, EPE)来衡量,但EPE的大小与行为识别效果的好坏并没有很强的相关性
3.光流算法在边缘以及小位移部分的准确度对动作识别的效果的相关性比较大。
4.用行为识别分类误差来训练(fine tune)光流比起用EPE误差来能获得更好的行为识别效果。
5.使用行为识别分类误差来训练得到的光流,与普通的光流的差异主要集中在人体的内部与边缘区域。
End-to-end Video-level Representation Learning for Action Recognition
paper:DTPP
提出了一种基于时间金字塔池(DTPP)的深层网络,一种端到端视频级表示学习方法,使用时间金字塔池层将帧级特征聚合到固定大小的视频级表示中,以多尺度方式捕获视频的时间结构。具体地说,首先,RGB图像和光流堆栈要在整个视频中进行稀疏采样。然后利用时间金字塔池层来聚集由空间和时间线索组成的帧级特征。最后,该模型具有紧凑的视频级表示,具有多个时间尺度,具有全局和序列感知。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。