赞
踩
TRN方法旨在学习和推理视频帧之间在多尺度上的时间段(temporal)独立性,进而理解视频时间片段之间的关系,最终得到理解视频语义的目的。
动作识别是计算机视觉领域核心课题之一,视频片段间的关系对于动作识别至关重要。动作识别的难点在于选择合适的时间尺度来描述动作,而此前许多技术都是使用静态帧和光流法等来实现动作识别。TRN是一个即插即用型的模块,可以用于任何CNN网络,作者构建基于TRN的模型,在三个动作识别数据集(Something-Something, Jester, and Charades)上进行了测试,都取得了很好的结果。
CNN用于动作识别的工作:
现有CNN方法存在两方面不足:
鉴于以上原因,TRN使用稀疏帧输入,推理帧之间的因果关系。
动作识别数据集:
当前的动作识别数据集大多通过“大众外包”获得。包括本文使用的Something-Something, Jester, and Charades三个数据集。
输入是视频V,其中包括n个选中的有序帧,即:V = {
f 1 , f 2 , . . . , f n f_1, f_2, ..., f_n f1,f2,...,fn}, 其中的 f i f_i f
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。