赞
踩
人工智能领域视频模型大体也经历了从传统手工特征,到卷积神经网络、双流网络(2014年-2017年)、3D卷积网络、transformer的发展脉络。为了时序信息,有的模型也结合用LSTM。
视频的技术大多借鉴图像处理技术,只是视频比图片多了一个时间维度。
下面内容先简单汇总下,后续再逐渐补充。
该特征来源于论文《On space-time interest points》,该特征是时空兴趣点的经典特征。
iDT算法是行为识别领域中非常经典的一种算法,在深度学习应用于该领域前也是效果最好的算法。由INRIA的IEAR实验室于2013年发表于ICCV。目前基于深度学习的行为识别算法效果已经超过了iDT算法,但与iDT的结果做ensemble总还是能获得一些提升.
"Dense Trajectories and Motion Boundary Descriptors for Action Recognition"和"Action Recognition with Improved Trajectories"。这两篇都是H. Wang的文章,前者要更早一些,介绍了DT(Dense Trajectories)算法。后者则在前者的基础上进行了改进(improved),主要是引入了对背景光流的消除方法,使得特征更集中于对人的运动的描述。两者的框架大致相同。
算法的基本框架,包括密集采样特征点,特征点轨迹跟踪和基于轨迹的特征提取几个部分。
通过 Spatial stream ConvNet 和 Temporal stream ConvNets 分别抽取视频的空间和时序特征,最后对两个网络进行融合。详见《Two-stream architecture for video recognition》
Temporal Segment Networks。将视频分成多段,分别输入到双流网络。如下图分成了3段。
视频比图片多了个时间维度,故将图片的2D卷积可以扩展到3D,处理视频。
详见论文笔记3D Convolutional Neural Networks for Human Action Recognition_AI强仔的博客-CSDN博客
Two-Stream Inflated 3D ConvNets (I3D) :将2D网络膨胀为3D网络,使得视频理解不需要再耗费心神去设计一个专门的网络了,而是可以直接使用图片预训练好的模型甚至是预训练的参数。
如下图右侧。3D卷积的参数量太大了,全三维卷积可以更方便地由二维卷积和一维卷积来近似,将空间和时间建模分解为两个单独的步骤。
参见https://openaccess.thecvf.com/content_cvpr_2018/papers/Tran_A_Closer_Look_CVPR_2018_paper.pdf
一个慢通道,一个快通道,分别提取空域信息以及时域信息。slow路径是为了捕获空间语义信息,并且顾名思义,该路径以较低的帧速度和较慢的刷新速度运行。fast路径负责捕获快速变化的运动,以快速刷新速度和高时间分辨率运行。
最近的研究主要集中在3D卷积神经网络和视觉transformer。虽然3D卷积可以在一个小的3D领域内(如3*3*3)可以捕捉详细的局部时空特征,减少了相邻帧之间的时空冗余,即有效处理局部信息来控制局部冗余,但因为受限制的接受域,缺乏捕捉全局依赖的能力。而视觉transformer通过自注意力机制可以捕捉长范围的依赖,但又在每个层中所有token的盲目相似比较导致其不能很好的减少局部冗余。
Unifified transFormer (UniFormer) ,集成了3D卷积和transformer,在计算量和准确度之间取得了较好的平衡。可以同时处理时空冗余和依赖.
详见UNIFORMER-视频模型(3D CNN和transformer结合)_AI强仔的博客-CSDN博客
下图中间的模型divided space-time attention。在时间 attention 中,每个图像块仅和其余帧在对应位置提取出的图像块进行 attention。在空间 attention 中,这个图像块仅和同一帧的提取出的图像块进行 attention。分开的时空注意力机制,效果要好于共同使用的时空注意力机制。
已被刷爆。
已被刷爆。
推荐大家看B站视频。【视频理解论文串讲(下)【论文精读】-哔哩哔哩】 https://b23.tv/ZCHorvS
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。