赞
踩
今日阅读论文题目:Long-Term Recurrent Convolutional Networks for Visual Recognition and Description
论文地址:https://arxiv.org/pdf/1411.4389.pdf
代码地址:https://github.com/garythung/torch-lrcn
这篇论文 首次发布在2015年的IEEE会议,此次阅读的是2017年改进的论文。
作者在文章中分析到对于视频的分析处理关键在于对时序特征的学习和理解,且网络输入输出都应该是变长的才符合世界上的真实场景。
在深度学习中能够良好表达序列化特征的网络架构就是RNN网络,其中表现最好的实现形式即是RNN的LSTM,而且LSTM在时序的表达上也具有其本身的优点,在结合上下文的文字、语音等语义的识别及预测任务上都完成得很出色。
而在空间序列的学习任务中,卷积神经网络可以说是一颗新星,一颗发展迅速的新星。由于其提取图片的空间特征信息的优越表达能力而引人注意。
故此,文章作者将LSTM与CNN相结合能够将空间特征与时间特征更完整的进行学习,从而实现"deep in time"。
作者面向的有三种场景:行为识别、图像标注与视频描述,在这里我们仅讨论学习行为识别部分,其他部分有兴趣的同学可自行学习。
ok,先来看下文中给出的网络架构图
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。