当前位置:   article > 正文

SlowFast学习_为什么slowfast实际效果不好

为什么slowfast实际效果不好

SlowFast简介

尽管图像分类的准确率已经很高,视频分类工作的准确度也仍达不到近似于人类的理解层次,因此不能用传统的卷积分类方法来对视频进行分类,于是Facebook的AI研究团队提出了一种新方法来SlowFast分析视频片段里的内容。该方法受启发于人类视网膜神经元的工作机制,使用了一个快通道来分析视频中人类的动作,还有一个慢通道来识别视频中人物活动的背景。

SlowFast工作原理

SlowFast卷积原理

在这里插入图片描述
上图是SlowFast网络的工作原理。卷积核的尺寸记作{T×S², C},其中T、S和C分别表示时序, 空间和频道的尺寸。速度比率(跳帧率) 为α,代表Fast通道帧率为Slow通道的α倍,频道比率为β,代表Fast通道的卷积核个数为Slow通道的1/β。
快慢通道进行多轮卷积、池化和侧向连接之后送入一个全连接层,该层使用softmax得出预测结果。

侧向连接

每一轮卷积之后,Fast通道要把提取好的动作特征融合到Slow通道中,这样子Slow通道在下一轮卷积中就可以分别按顺序提取背景特征和动作特征,用于更好地识别人物的动作,但是两个特征矩阵的大小并不一致,论文中给出了三种融合策略:

1.将Fast通道的{αT, S², βC} 特征矩阵变形转置为 {T , S², αβC},就是说把α帧压入一帧
2.简单地每隔α帧进行采样,{αT , S², βC} 就变换为 {T , S², βC}
3.用一个5×1^2的卷积核对Fast通道的特征矩阵进行3D卷积操作,输出时间维度与Slow通道一致的特征矩阵并进行拼接

SlowFast网络实例

在这里插入图片描述
上图为一个SlowFast网络实例,在拿到一个视频时,要先对其进行抽帧操作,使其分为Slow和Fast两个通道的数据,然后分别对两个通道的数据进行卷积,并进行侧向连接,为了减少模型训练过程中的过拟合现象,后几层网络采用resnet网络进行卷积操作。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/863985
推荐阅读
相关标签
  

闽ICP备14008679号