赞
踩
尽管图像分类的准确率已经很高,视频分类工作的准确度也仍达不到近似于人类的理解层次,因此不能用传统的卷积分类方法来对视频进行分类,于是Facebook的AI研究团队提出了一种新方法来SlowFast分析视频片段里的内容。该方法受启发于人类视网膜神经元的工作机制,使用了一个快通道来分析视频中人类的动作,还有一个慢通道来识别视频中人物活动的背景。
上图是SlowFast网络的工作原理。卷积核的尺寸记作{T×S², C},其中T、S和C分别表示时序, 空间和频道的尺寸。速度比率(跳帧率) 为α,代表Fast通道帧率为Slow通道的α倍,频道比率为β,代表Fast通道的卷积核个数为Slow通道的1/β。
快慢通道进行多轮卷积、池化和侧向连接之后送入一个全连接层,该层使用softmax得出预测结果。
每一轮卷积之后,Fast通道要把提取好的动作特征融合到Slow通道中,这样子Slow通道在下一轮卷积中就可以分别按顺序提取背景特征和动作特征,用于更好地识别人物的动作,但是两个特征矩阵的大小并不一致,论文中给出了三种融合策略:
上图为一个SlowFast网络实例,在拿到一个视频时,要先对其进行抽帧操作,使其分为Slow和Fast两个通道的数据,然后分别对两个通道的数据进行卷积,并进行侧向连接,为了减少模型训练过程中的过拟合现象,后几层网络采用resnet网络进行卷积操作。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。