赞
踩
在计算机视觉领域的子任务中,Action/Activity Recognition和Human Parsing/Human Pose Estimation看上去是类似的,它们之间具体的区别可以参阅以下两篇文章:
简要的总结就是:姿态估计是指检测图像和视频中的人物形象的计算机视觉技术,通常用于确定某人的某个身体部位出现在图像中的位置,也就是在图像和视频中对人体关节的定位问题。而行为识别技术应用的目的是得到图像或视频段中目标的行为类别。
可知,其实两者之间没有很直接的联系,它们的关联点主要在于骨架(skeleton)相关的技术。研究认为人体的运动可以通过一些主要关节点的移动来描述,因此,只要若干(10-12,或18等)个关键节点的组合与追踪便能形成对诸多行为例如跳舞、走路、跑步等的刻画,通过人体关键节点的运动来识别行为。也就是说,使用姿态估计相关的技术可以输出一个高维的姿态向量表示关节点的位置,即一整组关节点的定位,以从图像背景中分离出人体前景,然后重建人物的关节、肢体,作为行为识别模型(典型的如GCN)的输入。
当然行为识别并非一定要依赖姿态估计,从图像或视频中识别关键节点并重建不是唯一的策略,这只是一种优势劣势都很明显的方法而已。行为识别方法良多,这里就不赘述了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。