赞
踩
姿态估计(Pose Estimation)也叫人体关键点检测。
2D姿态估计——从RGB图像估计每个关节的2D姿势(x,y)坐标
3D姿态估计——从RGB图像估计3D姿势(x,y,z)坐标。
人机交互
人体姿态检测方面面临的挑战:
传统方法使用Pictorial Structures,DPM(先计算梯度方向直方图,然后用SVM训练得到模型的梯度模型,简单理解就是模型和目标匹配)。
主要思想:
论文设计的网络分为多个阶段(stage):前面阶段使用原始图片作为输入,后面阶段使用之前阶段生成的特征图作为输入,这样做主要是为了融合空间信息,纹理信息。
论文中,为了进一步提升精度,采用加大网络的感受野的方式来学习各个部件 parts 之间的空间几何约束关系, 保证精度的同时考虑各个部件的远距离关系.
同时,网络采用全卷机网络(FCN), 可以 end-to-end joint training, 同时为了防止梯度消失, 在各个阶段中添加监督信息, 避免网络过深难以优化的问题.
几篇经典论文:
DeepPose是第一篇将深度学习技术应用到人体姿态估计的论文。这一方法的提出,超越了之前未应用深度学习技术的所有方法。在此方法中,姿态估计被定义为基于卷积神经网络的身体关节点的回归问题。
特点:(1)将深度学习技术应用到人体姿态估计中,因此出现了更多此方向的研究,成为了其他方法的baseline;
(2)回归到(x,y)坐标很困难,增加了学习的复杂度,削弱了泛化能力,因此在某领域表现不佳。
模型包括7层AlexNet 和 额外的回归全连接层,输出二维坐标。
作者在这个CNN网络的基础上使用了一个Trick级联回归器(Cascaded Regressors)。针对当时浅层CNN学习到的特征尺度固定、回归性能差的问题,将网络得到的粗回归(x,y)坐标保存,增加一个阶段。在原图中以(x,y)为中心,剪切一个区域图像,将区域图像传入CNN网络学习更高分辨率的特征,进行较高精度的坐标值回归。
沙漏网络继承并放大了DeepPose所提出的多分辨率特征思想。该结构主要由下采样与上采样操作构成,下采样是通过卷积操作及池化操作实现的,以获得分辨率较低的特征图,降低计算复杂度;之后通过反卷积操作,使图像特征的分辨率提高。该网络结构融合了多尺度上下文的信息,具有较强的预测物体位置的能力。
“hourglass”模块的基本结构如上图所示,图中的每一个方块都表示一个残差模块。
残差模块的具体形式如下。
"hourglass network"的整体结构如图所示,输入的图像首先经过卷积和pooling操作后,尺寸缩小四倍(256x256->64x64),然后接多个"hourglass"模块。在中间的每一个"hourglass"模块后都会输出一个中间结果heatmaps,参与损失函数计算,并会将这个heatmaps通过1x1的卷积“remap”回去,与原来的feature map相加到一起。
1.以w*h大小的彩色图像作为输入
2.经过VGG的前10层网络得到一个特征度F
3.网络分成两个循环分支,一个分支用于预测置信图S:关键点(人体关节),一个分支用于预测L:像素点在骨架中的走向(肢体)
4.第一个循环分支以特征图F作为输入,得到一组S1,L1
5.之后的分支分别以上一个分支的输出St-1,Lt-1和特征图F作为输入
6.网络最终输出S,L。
采用非参数表征方法 Part Affinity Fields(PAFs 部件亲和度向量场),去学习将身体部位和对应个体关联;
RMPE:在SPPE结构上添加了SSTN,能够在不精准的区域中提取到高质量的人体的区域。一种新奇的SPPE分支(SSTN)来优化自身网络,使用parametric pose NMS来解决冗余检测问题,该结构中,使用了一种新奇的姿态距离度量方案比较姿态之间的相似度,用数据驱动的方法优化姿态距离参数。最后使用PGPG来强化训练数据。
首先通过目标检测算法,得到人体的区域框。然后将该区域框输入到STN(Spatial Transformer Network,空间变换网络)+SPPE模块中。自动检测人体姿态,再通过Pose NMS( Pose NonMaximum-Suppression )进行refine。在训练的过程中使用了Parallel SPPE来避免局部最优并进一步扩大SSTN的效果。
这幅图表示了SSTN+Parallel SPPE模块的结构,SDTN结构接收一个由定位网格生成的参数,然后为反向转换计算参数γ。使用网格生成器和采样器去提取一个人所在的区域,在Parallel SPPE 中,制定一个中心定位姿态标签,冻结Parallel SPPE的所有层的所有权重来增强STN去提取一个单人姿态区域。
参考博客:https://blog.csdn.net/qq_36893052/article/details/79860328
ST-GCN:基于动态骨骼的动作识别方法ST-GCN(时空图卷积网络模型)
着重于输出可靠的高分辨率表征(reliable highresolution representations)。现有的大多数方法都是从高分辨率到低分辨率网络(high-to-low resolution network)产生的低分辨率表征中恢复高分辨率表征。相反,我们提出的网络能在整个过程中都保持高分辨率的表征。
从高分辨率子网作为第一阶段始,逐步增加高分辨率到低分辨率的子网(gradually add high-to-low resolution subnetworks),形成更多的阶段,并将多分辨率子网并行连接。在整个过程中,我们通过在并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合。我们通过网络输出的高分辨率表示来估计关键点。生成的网络如图所示。
从左到右是高分辨率、中分辨率和低分辨率的信息融合方式,这种融合方式统一交给“交换块”完成,其实也就是相应比例上、下采样的统称。高分辨率汇合采用上一层的低分辨率进行上采样以及同子网络的特征图进行融合;中分辨率汇合采用相邻前后俩子网络上一层的特征图分别上采样和下采样以及同自网络上层特征图的融合;低分辨率则是直接由高分辨率下采样汇合到自己原有的低分辨率特征图
3D Human Pose Estimation with Spatial and Temporal Transformers
Lifting_Transformer_for_3D_Human_Pose_Estimation_in_Video
TokenPose_Learning_Keypoint_Tokens_for_Human_Pose_Estimation
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。