当前位置:   article > 正文

姿态检测简述

姿态检测

姿态估计

姿态估计是通过计算机视觉技术,从给定的图像中识别人物的关键点,以及恢复人物的3D模型。姿态估计的下游应用包括识别动作、驱动动画、人机交互、动物行为分析等。

2D姿态估计

2D姿态估计任务定义为在图像上的定位人体关键点坐标。目前有两种方法可以实现这个任务。

回归问题

首先,可以将2D姿态估计转化为回归问题,但由深度模型直接回归坐标会存在困难,其精度也不高。

基于热力图

其次,预测关键点位于每个位置的概率,这个方法被称为基于热力图的方法。热力图可以与关键点相互转换,相比直接回归坐标,热力图预测更易于实现且具有更高的精度。然而,热力图的计算消耗大于直接回归。

数据标注到热力图

从目标检测器中检测到的bounding box(包围盒)中心后,使用高斯分布对关键点进行标注。这种方法使得热力图中心点的数值最大,其他点降低。

训练过程

训练过程主要包括以下4个步骤:

  1. 标注关键点
  2. 转换为真值热力图
  3. 模型预测热力图
  4. 逐点对比计算损失。

在训练过程中,存在两个问题:当两个关键点重合时,求关键点的最大值不一定是最优方法;并且,计算损失的时候需要进行微分,并实现连续无量化误差,才能进行端到端优化。为了解决这些问题,我们采用期望的方式来进行计算,这样可以使得模型更加精确并提高它的效率。

多人姿态估计方法

在实际场景中,通常需要同时处理多个人物的姿态估计。研究人员也提出了许多针对多人姿态估计的方法,这些方法可以大致分为自顶向下和自底向上方法。

自顶向下方法

自顶向下方法先进行人体检测,然后再对单个人进行姿态估计。尽管这种方法的精度受限,但计算速度很快。

自底向上方法

自底向上方法在所有关键点上进行检测,然后再使用聚类方法得到不同的人。这种方法的推理速度无关并且准确性较高。

模型

以下是一些流行的姿态估计模型:

DeepPose

DeepPose使用分类网络为基础提取特征,最后一层将分类改为回归,一次性预测所有坐标。DeepPose可以级联并在每一级别上提高精度。尽管它的回归方法优势在于精度无限制、不受特征图空间分辨率的影响,但由于图像到关键点的回归高度非线性,因此它的精度不太高。

RLE

RLE是一种基于概率分布的方法,引入逐渐改变概率分布的参数的方法,显式建模关键点的概率分布,并通过极大似然来获取最优点。此外,RLE采用了重参数化和残差似然函数等优化方法。

Hourglass

Hourglass模型结合了局部信息与全局信息的特点,可以级联成更深度的网络,短模块级联,添加监督信号能得到更好的效果。

Simple Baseline

Simple Baseline模型力求结构简单,采用Resnet与反卷积方法结合来实现2D姿态估计。

HRNet

HRNet模型在下采样时保留原图像的分辨率,并进行多尺寸融合。该模型还设计了不同表示头以用于不同任务的多任务融合训练。

OpenPose

OpenPose模型可同时预测关键点和肢体方向,并通过结合进行匹配。该模型使用了K部图方法。

SPM

SPM模型可以回归多个向量,并引入辅助关节根关节。

Hierarchical SPR

Hierarchical SPR模型在计算过程中采用了分级计算。

PRTR

PRTR模型采用注意力机制Transformer,并使用两阶段算法:第一阶段用于DERT回归人物,第二阶段查询信息用于学习关键点信息,并最终回归关键点位置。此外,PRTR模型共用特征网络。

TokenPose

与PRTR类似,TokenPose模型将视觉token和关键点token一起送入encoder,并从图像中学习视觉表现和关键点约束。

3D人体估计

3D人体估计任务是输入图像,输出3D空间中的相对坐标。目前,有几种方法可以实现它:

  1. 直接预测,隐式借助先验
  2. 利用视频信息、帧间信息
  3. 直接运用多视角图像

Coarse-to Fine Volumetric Prediction 2017

Coarse-to Fine Volumetric Prediction 2017模型使用卷积网络预测3D热力图,逐层增加精度。

Simple Baseline 3D

Simple Baseline 3D模型通过直接由2D坐标预测3D坐标来实现3D人体估计任务,并取得了较好的效果。

VideoPose3D

VideoPose3D模型基于单帧预测2D关键点,然后使用多帧2D关键点预测3D关键点。

评估指标

姿态估计模型的评价指标主要包括关节点检测率(PCP)、关节点精度(PDJ)、关键点置信度(PCK)以及关键点的相似度(OKS)等。

DensePose

DensePose是一种新型的人体姿态估计方法。该方法首先将人体表面分为24个部分,然后参数化至同样大小平面。接着,标注身体各部分区域,并等距采样至多14个点对应于3D人体,用于训练。在预测过程中,该方法首先进行背景预测,然后对每个部分进行精确回归。具体实现中,DensePose采用了身体表面网络、混合蒙皮、线性混合蒙皮以及SMLP人体参数化模型等技术,并将形态参数和姿态参数进行分开训练,从而实现了对重建模型的支持。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/96423
推荐阅读
相关标签
  

闽ICP备14008679号