搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
小蓝xlanll
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
Mysql时间函数用法_mysql where 时间
2
加油站微信小程序的设计与实现-计算机毕业设计_校外加油站 程序设计
3
使用capture one for Mac如何创建自定义快捷方式集?_mac captureone前后对比快捷键
4
中国的操作系统都有哪些?_中国的操作系统有哪些
5
Using WebView from more than one process
6
uni-app 接口封装,token过期,自动获取最新的token_uniapp token过期自动登录
7
理论内容整理_全量回归问题跟进
8
Golang速率限制_golang 限速
9
Java-猜数游戏_用java设计一个猜数程序
10
鸿蒙开发环境安装
当前位置:
article
> 正文
VALSE Webinar 20200226 视频行为识别 Action Recognition 摘要_action recognition、temporal action detection、spati
作者:小蓝xlanll | 2024-03-22 05:49:22
赞
踩
action recognition、temporal action detection、spatial-temporal action detec
文章目录
0. 前言
1. 复杂视频序列的深度表征与理解方法
1.1. 数据集
1.2. 早期行为识别方法
1.3. 视频行为识别的新进展
1.4. 总结与展望
2. Spatial-temporal action detection with Long-term Information Integration
3. 讨论
3.1. 行为的主观性、不平衡性、复合型
3.2. 视频数据集的标注问题、算力问题
3.3. 目前已有技术的应用场景
3.4. 研究热点、难点
0. 前言
参考资料:
官方发布的视频
:只有1小时。
非官方发布的视频
:1小时40分,也不全。
slides
提纲:
复杂视频序列的深度表征与理解方法
演讲人:中国科学院深圳先进技术研究院 - 乔宇
主要内容:行为识别数据集、行为识别早期方法(非深度学习+少量深度学习)、行为识别最新进展。
Spatial-temporal action detection with Long-term Information Integration
演讲人:上海交大 - 林巍峣
主要内容:视频中行为的时空定位,以及对应的方法。
就以下几个议题进行讨论
行为的主观性、不平衡性、复合型讨论
视频数据集的标注问题、算力问题
目前已有的应用场景
研究热点、难点
我个人关注的点:
实时行为识别落地还是非常困难,只能在特定场景下靠大量数据来实现。
数据生成可以考虑使用3D模型来构建模拟数据,效果也很好。
Spatial-temporal action detection 的基本思路还挺有意思,只不过离应用还早得很。
关注两个数据集:
human in action:多人场景下的时空行为检测,暂时关闭下载,要等9月份。
VIRAT:真实监控场景下的数据,可下载。
1. 复杂视频序列的深度表征与理解方法
1.1. 数据集
数据集来源的历史发展:
实验室收集。
电影、体育赛事视频。
互联网视频(如youtube)。
目前常用的数据集:
1.2. 早期行为识别方法
非深度学习方法
这类不太懂,就记录几个关键字吧。
视频的时空兴趣点和轨迹(2005/2011年的工作)
视频的时空特征(通过HoG/HoF/MBH等方法手工提取),2011年左右
视频的中层表示,CVPR2013的工作
视频特征编码(CVPR2014年的工作,应该是非深度学习中最好的)
早期深度学习方法:
简单介绍三篇内容:
斯坦福的这篇是CNN时空信息融合的一种尝试,比较直接,效果一般。
牛津这篇是双流法的开端,使用了光流、RGB流同时使用。
Facebook这篇就更有意思了,直接把VGG网络做成3D形式,即C3D。
下面三篇的效果并没有比之前的非深度学习的方法好。
TDD(轨迹池化卷积特征,2015)
应该是深度学习+传统方法的一次尝试。
感觉类似于RCNN,TDD也是把把提取特征的工作交给CNN,其他基本上没用深度学习的方法。
第一篇全面超越传统方法的论文。
TRN(2016)
目标解决的是对视频序列建模以及使用深度学习方法处理。
核心问题:视频的数据量大,特征维度很高,但深度学习的训练受制于显存和SGD算法
这篇的主要思路是
多段融合
,就是吧视频分为多段,分别提取特征后,最后融合结果。
这篇文章应该没有用到3D,是后面TSM的基础。
1.3. 视频行为识别的新进展
3D卷积神经网络
I3D:3D CNN的一种,在C3D的基础上引入了光流,将Inception结构转换为3D网络。
S3D/R(2+1)D:卷积时空分解,也就是说把
3*3*3
卷积分结果为
1*3*3 + 3*1*1
,这样参数数量也会减少,运算也减少。
CSN:3D分解模型,主要就是引入depthwise,减少计算量,提高性能。
ARTNet:时空关系建模,即2D卷积用于提取特征,但空间特征无法提取,所以设计了一种结构用于获取相邻两帧之间的信息。
Non-local:时空跨度依赖模型,时间空间距离较远特征之间的关系进行建模。传统CNN要做到这一点只能靠扩大感受域(这就代表参数增加)。
SlowFast:快/慢两条通道融合结果。
TSM:面向3D任务的2D轻量化模型,全部使用2D卷积,对
N, T, C, H, W
上在T纬度上进行shift。
SmallBigNet
Pose-Based行为识别
RPAN:CNN+RNN,对行为的动态过程建模,把行为识别与姿态估计结合,利用姿态变化引导RNN对行为的动态过程进行建模。
PA3D:把姿态信息作为一种输入,用3D网络进行建模。一般先进行姿态估计,再将pose heat map编码成图像channel信息。
ST-GCN:骨架+图神经网络,骨架本身是一张图,骨架随时间变化的也是一张图,然后通过图神经网络建模。
AS-GCN
1.4. 总结与展望
数据库:更大规模,更精细,特定场景,特定物体。
网络:3D网络(时空效率较低)、长时序列、姿态(2D/3D)、运动、时空关系。
应用:智慧城市(异常行为、长尾类别)、网络视频(开集、持续学习、生成模型)
2. Spatial-temporal action detection with Long-term Information Integration
视频中行为的时空定位(较新)
工业界
视频网站:temporal detection,视频摘要。
监控:spatial-temporal detection。
现有主要套路(与目标跟踪类似):
第一步:在每一帧上检测可能出现行为的区域。
第二步:时域中,对不同帧进行关联。
现有工作的主要问题:
缺乏长期信息。
复杂度很高,因为要对每一帧进行检测,要求强大算力。
噪声造成的影响很大(比如中间有一帧出错,之后的都会受到影响)。
讲者的工作:
添加长期信息。
选择关键帧处理,这样减少计算量也会减少噪声的影响。
讲者所在团队花大价钱构建了数据集
Human in action
就是 Spatial-temporal action detection 的数据集,但已经关闭注册啦。
3. 讨论
3.1. 行为的主观性、不平衡性、复合型
概念
主观性:每个人表现不同,不同人标注结果不同。
不平衡性:行为千变万化。
复合型:日常生活为一系列简单行为组成的复杂性为,同时包括周围环境的变化。
乔:更精细的数据标定,与知识理解(知识驱动、知识图谱)相结合,
林:
hieratical的方法,就是多级分类。
视频监控等场景中,对某几类特别关注,唯一的方法就是增大数据量。增大数据量的一种方法是生成一些数据,特别是3D模型。
蒋:
hieratical 会陷入泥潭,没有好的答案。
两个好的尝试:分解名词和动词,划分细粒度是应用驱动的。
3.2. 视频数据集的标注问题、算力问题
乔:
设计高效3D卷积网络
半自动标注,非监督方法标注,生成数据(游戏、电影)
林:
真实数据标注没有更好的办法,3维模型生成(GAN不管用)。
3D网络还在研究阶段,还不成熟。
蒋:
无监督学习/弱监督学习标注,3d simulation生成。
3.3. 目前已有技术的应用场景
乔:
异常行为/危险行为检测,目前还都比较困难。学术进展不代表工业界提高。
视频推荐。
林:
视频网站:视频摘要+推荐,做得不错。
监控:很难(以打架为例),与推荐要求不一样。
蒋:
必须结合一个具体问题进行处理。
趋势:在线识别->预测未来。
3.4. 研究热点、难点
乔:数据库构建(要突破Internet的限制),高效backbone(短视频/长时网络),姿态/物品/时空信息监测。
林:通用性处理时空数据的backbone,具体应用上行为时空监测/细粒度行为(fine-gained)/骨架、目标技术(骨架提取好对行为识别的提升很大,但目前在复杂场景下骨架提取还是有较大问题)。
蒋:视频方向可能会有NAS(你的竞争对手不是人,而是大规模集群),无标注/若标注数据处理的backbone,未来帧预测有较好效果,多模态的识别(如考虑到隐私,只有深度,没有RGB),spatial-temporal 检测,VIRAT 数据集。
王:
视频backbone设计,相比图像数据量大、冗余性高,可能可以添加先验。
弱监督算法(多模态,语音、视频、文本)。
具体应用场景有不同框架,多人需要时空检测,多人行为合成群体动作。
声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
【wpsshop博客】
推荐阅读
article
Android
adb使用详解_-a
android
.
intent
.
action
.main
--
es...
此文章内容整合自网络,欢迎转载。我相信做
Android
开发的朋友都用过ADB命令,但是也只是限于安装应用push文件和设...
赞
踩
article
入侵
检测系统 Intrusion
detection
system
...
Wikipedia
入侵
检测系统1.与防火墙的比较2.
入侵
检测类别2.1分析活动2.1.1网络
入侵
检测系统2.2.2主机入...
赞
踩
article
few
-
shot
学习笔记(自用)_
few
-
shot
object
detection
: a comp...
paper-with-code的榜单上列出了在MS-COCO(30-
shot
)数据集上各个模型的AP50,最高的目前只有...
赞
踩
article
[FSOD][笔记]
Context
-
Trans
for
mer
:
Tackling
Object
Con...
论文题目:
Context
-
Trans
for
mer
:
Tackling
Object
Confusion
for
Few...
赞
踩
article
Context
-Trans
for
mer:
Tackling
Object
Confusion
for
...
Context
-Trans
for
mer:
Tackling
Object
Confusion
for
Few-Shot ...
赞
踩
article
Temporal
Convolutional
Networks
and
Forecasting
(TC...
下面图片显示不全,附上文章链接_tcn
感受
野
计算
tcn
感受
野
计算
下面图片显示 这是下面的文档链...
赞
踩
article
TCN
(
Temporal
Convolutional
Networks
)详解_tcn
模型
...
文章介绍了一种时序预测算法
TCN
(时域卷积网络)利用因果卷积和残差模块等,使得
模型
能更好的捕捉时序数据局部依赖关系以及稳...
赞
踩
article
深度之眼Paper带读笔记NLP.28:
TCN
(
Temporal
Convolutional
Ne...
文章目录前言第一课 论文导读序列建模序列建模的发展历史序列建模技术总览序列建模与循环神经网络(RNN)序列建模与循环神经...
赞
踩
article
SpringBoot
微信
公众号开发_?
action
=
group
&
chatid
=64eee47d6a4...
springboot开发
微信
公众号_?
action
=
group
&
chatid
=64eee47d6a44ec4368ac6...
赞
踩
article
【
Object
Detection
】
YOLOV5
应用案例——口罩检测(
mask
destection
...
然后点击生成数据集然后选择导出数据,可选择将数据下载到电脑也可以复制下载代码在项目中进行下载将下载好的数据解压到YOLO...
赞
踩
article
Fall
-
detection
_fall
detection
...
a very simple
Fall
-
detection
(摔倒/跌倒检测)using yolo2项目地址:https:/...
赞
踩
article
一文速览
深度
伪造
检测
(
Detection
of
Deepfakes
):未来技术的
守门人
_深伪
检测
...
在数字化时代的高速公路上,
深度
伪造技术(Deepfake)如同一辆无人驾驶的跑车,其速度惊人,潜力巨大,同时也带来了潜在...
赞
踩
article
Speech
Emotion
Recognition
with
Multi
-task Learnin...
本文研究了2021年的多任务学习模式下的语音情绪识别。提出了一种基于wav2vec-2.0的深度神经模型,用于同时预测转...
赞
踩
article
人脸识别
之特征脸方法(Eigen
face
)_
face
recognition
using
eigen...
人脸识别
之特征脸方法(Eigen
face
)zouxy09@qq.comhttp://blog.csdn.net/zoux...
赞
踩
article
《
Adaptive
Adversarial
Patch
Attack
on
Face
Recogni...
我们反向传播Ladv,以获得梯度Ladv,然后对每个通道的结果进行平方和求和,以获得显著性图,显著图中每个像素的值反映了...
赞
踩
article
对抗攻击与防御(2022年顶会顶刊
AAAI
、ACM、
ECCV
、NIPS、
ICLR
、
CVPR
)adv...
2022年 关于对抗攻击跟防御的全部顶会、顶刊论文_
adversarial
attack
s
for
object
det...
赞
踩
article
论文阅读 - Social
bot
detection
in the age of
ChatGPT
:...
我们全面概述了在复杂的基于人工智能的聊天机器人兴起的背景下社交机器人检测的挑战和机遇。通过研究社交机器人检测技术的最新水...
赞
踩
article
On
the
Detection
of Unauthorized
Drones
—Techniques...
介绍了
无人机
检测
的几种方法On
the
Detection
of Unauthorized
Drones
—Techniq...
赞
踩
article
论文
阅读-A decade of
social
bot
detection
-Communicatio...
机器人
检测
的十年_
社交
媒体
机器人
检测
综述
社交
媒体
机器人
检测
综述 &n...
赞
踩
article
谣言
检测
论文分享(八)A Survey on
Fake
News and
Rumour
Detect...
主要介绍开展
谣言
检测
或假新闻
检测
的背景和研究意义。社交媒体在新闻传播中具有突出作用。一方面新闻记者可能会利用社交媒体报道...
赞
踩
相关标签
android
adb
安全
学习
深度学习
few-shot
论文笔记
detection
计算机视觉
python
visual studio code
cnn
tensorflow
机器学习
神经网络
微信
spring boot
java
1024程序员节
目标检测
人工智能
跌倒检测
笔记
网络安全