当前位置:   article > 正文

Temporal Relational Reasoning in Videos(论文笔记)

temporal relational reasoning in videos


原文链接: https://openaccess.thecvf.com/content_ECCV_2018/html/Bolei_Zhou_Temporal_Relational_Reasoning_ECCV_2018_paper.html

简介

TRN方法旨在学习和推理视频帧之间在多尺度上的时间段(temporal)独立性,进而理解视频时间片段之间的关系,最终得到理解视频语义的目的。
动作识别是计算机视觉领域核心课题之一,视频片段间的关系对于动作识别至关重要。动作识别的难点在于选择合适的时间尺度来描述动作,而此前许多技术都是使用静态帧和光流法等来实现动作识别。TRN是一个即插即用型的模块,可以用于任何CNN网络,作者构建基于TRN的模型,在三个动作识别数据集(Something-Something, Jester, and Charades)上进行了测试,都取得了很好的结果。

相关工作

CNN用于动作识别的工作:

  1. 基于RGB图像帧的模型
  2. 双流法,基于RGB图像和光流图
  3. 3D卷积网络,使用3D卷积核提取视频信息
  4. TSN方法(前一篇文章),基于双流法,采用分割时间段的方法提取视频长程信息
  5. CNN+LSTM模型
  6. I3D网络,结合3D卷积和双流法,在Kinetics数据集上取得了sota

现有CNN方法存在两方面不足:

  1. 需要获取光流图,降低了效率
  2. 3D卷积的输入是稠密的帧,计算复杂度高
  3. 难以获取更长程的信息

鉴于以上原因,TRN使用稀疏帧输入,推理帧之间的因果关系。
动作识别数据集
当前的动作识别数据集大多通过“大众外包”获得。包括本文使用的Something-Something, Jester, and Charades三个数据集。

TRN模型

在这里插入图片描述

定义时间关系

在这里插入图片描述
输入是视频V,其中包括n个选中的有序帧,即:V = { f 1 , f 2 , . . . , f n f_1, f_2, ..., f_n f1,f2,...,fn}, 其中的 f i f_i f

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/985406
推荐阅读
相关标签
  

闽ICP备14008679号