SlowFast学习_为什么slowfast实际效果不好

作者：你好赵伟 | 2024-07-22 07:11:46

踩

为什么slowfast实际效果不好

SlowFast简介

尽管图像分类的准确率已经很高，视频分类工作的准确度也仍达不到近似于人类的理解层次，因此不能用传统的卷积分类方法来对视频进行分类，于是Facebook的AI研究团队提出了一种新方法来SlowFast分析视频片段里的内容。该方法受启发于人类视网膜神经元的工作机制，使用了一个快通道来分析视频中人类的动作，还有一个慢通道来识别视频中人物活动的背景。

SlowFast工作原理

SlowFast卷积原理

在这里插入图片描述
上图是SlowFast网络的工作原理。卷积核的尺寸记作{T×S², C}，其中T、S和C分别表示时序，空间和频道的尺寸。速度比率(跳帧率) 为α，代表Fast通道帧率为Slow通道的α倍，频道比率为β，代表Fast通道的卷积核个数为Slow通道的1/β。
快慢通道进行多轮卷积、池化和侧向连接之后送入一个全连接层，该层使用softmax得出预测结果。

侧向连接

每一轮卷积之后，Fast通道要把提取好的动作特征融合到Slow通道中，这样子Slow通道在下一轮卷积中就可以分别按顺序提取背景特征和动作特征，用于更好地识别人物的动作，但是两个特征矩阵的大小并不一致，论文中给出了三种融合策略：

1.将Fast通道的{αT, S², βC} 特征矩阵变形转置为 {T , S², αβC}，就是说把α帧压入一帧

2.简单地每隔α帧进行采样，{αT , S², βC} 就变换为 {T , S², βC}

3.用一个5×1^2的卷积核对Fast通道的特征矩阵进行3D卷积操作，输出时间维度与Slow通道一致的特征矩阵并进行拼接

SlowFast网络实例

在这里插入图片描述
上图为一个SlowFast网络实例，在拿到一个视频时，要先对其进行抽帧操作，使其分为Slow和Fast两个通道的数据，然后分别对两个通道的数据进行卷积，并进行侧向连接，为了减少模型训练过程中的过拟合现象，后几层网络采用resnet网络进行卷积操作。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/863985