赞
踩
In the Wild Human Pose Estimation Using Explicit 2D Features and
Intermediate 3D Representations
题目:《在自然场景下人体姿态估计中使用显式2D特征和中间3D表示》
作者:
来源:CVPR 2019
研究内容:
单人-单视图-自监督
创新点:
提出了一种新的基于深度学习的单眼三维人体姿态估计方法,该方法显示出高精度并且更好地概括野外场景。它具有网络架构,其包括新的解析的隐藏空间编码的显式2D和3D特征,并且使用来自预测的3D姿势的新学习投影模型的监督。
算法可以与具有2D+3D标签的图像数据或仅具有2D标签的图像数据联合训练。
现有问题与技术:
①标准3D人体运动捕捉系统通常需要标记套装和/或以受控设置记录的多个摄像机,这些设置昂贵且设置复杂,并且在实验室或演播室环境之外是不切实际的;
②由于单眼3D姿态估计的约束性不足,实现精确的3D预测仍然是一项具有挑战性的任务;
③卷积神经网络(CNN)训练此类方法通常需要使用来自基于标记或无标记的多相机运动捕捉系统,合成数据或基于IMU的系统的参考3D姿势注释大量RGB图像。由于这种复杂的参考数据捕获,在训练数据中很难实现现实世界外观或姿势的多样性,这限制了训练网络在野外场景中的普遍性;
本文框架:
基于深度学习的单眼3D人体姿态估计,其使用的卷积空间可以提取出2D关键点特征与深度特征,利用单目视图输入的弱透视摄像机参数将预测的3D 姿态投影至2D空间。
数据集:
(1)具有2DGT和3DGT标注的数据集
Human 3.6M;MPI-INF-3DHP;
(2)只有2D GT标注的数据集
MPII Human Pose;LSP。这两个数据集用于训练CNN网络,同时对数据增强(对数据平移,旋转等)
评估:MPJPE(平均每个关节位置误差);
PCK(3D正确关键点百分比);
AUC(曲线下面积)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。