赞
踩
参考
3D Human Pose Estimation(以下简称 3D HPE )的目标是在三维空间中估计人体关键点的位置。3D HPE 的应用非常广泛,包括人机交互、运动分析、康复训练等,它也可以为其他计算机视觉任务(例如行为识别)提供 skeleton 等方面的信息。关于人体的表示一般有两种方式:第一种以骨架的形式表示人体姿态,由一系列的人体关键点和关键点之间的连线构成;另一种是参数化的人体模型(如 SMPL [2]),以 mesh 形式表示人体姿态和体型。
近几年,随着深度学习在人体姿态估计领域的成功应用,2D HPE 的精度和泛化能力都得到了显著提升。然而,相较于 2D HPE,3D HPE 面临着更多的挑战。一方面,受数据采集难度的限制,目前大多数方法都是基于单目图像或视频的,而从 2D 图像到 3D 姿态的映射本就是一个多解问题。另一方面,深度学习算法依赖于大量的训练数据,但由于 3D 姿态标注的难度和成本都比较高,目前的主流数据集基本都是在实验室环境下采集的,这势必会影响到算法在户外数据上的泛化性能。另外,2D HPE 面临的一些难题(例如自遮挡)同样也是 3D HPE 亟待解决的问题。
目前,3D姿态估计的主要瓶颈是缺少大型的室外数据集,并缺少一些特殊姿态的数据集(如摔倒, 打滚等)。这主要由于3D姿态数据集是依靠适合室内环境的动作捕捉(MOCAP)系统构建的,而MOCAP系统需要带有多个传感器和紧身衣裤的复杂装置,在室外环境使用是不切实际的。因此数据集大多是在实验室环境下建立的,模型的泛化能力也比较差。
不同数据类型的识别方法
从图片或视频中估计出关节点的三维坐标 (x, y, z) (回归问题)
1、从2D图片直接暴力回归得到3D坐标
2、先获取2D信息,然后再“提升”到3D姿态
在神经网络结构的设计。目前的研究方法可以分成两大种类:
先通过目标检测检测到人体,再做人体姿态估计的两阶段方法。
(G-RMI, RMPE, CPN, SimpleBaseline, HRNet, …)
针对整副图像的多人关键点检测,检测所有关键点候选位置的同时,一般会有一定的算法关联或匹配到相似人体(openpose动态规划, associative embedding的tag匹配, personlab的贪婪算法等等Deepcut, OpenPose, Aassociative Embedding, PersonLab)。
Bottom-up方法是一种更值得研究的方法, 是走向实时姿态估计的主要途径。
相关论文:ICCV-19, 也提出了single-stage multi-person pose machine;19-arxiv-objects as points;19-arxiv-DirectPose: Direct End-to-End Multi-Person Pose Estimation
2020年CVPR:
2021年CVPR:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。