赞
踩
ECCV2018
摘要: 近年来,姿态估计在取得重大进展的同时,总体算法和系统复杂性也日益增加,加剧了算法分析和比较的难度,本项工作提供了一个简单有效的baseline,来帮助激发并评估该领域的新想法。
得益于深度学习的发展,人体姿态估计任务已取得很大提升。自先驱工作 DeepPose 和 [Joint training of a convolutional network and a graphical model for human pose estimation] 被提出以来,MPII基准的性能在三年内达到饱和(从约80% PCKH@0.5 提升至 90%以上)。挑战性的COCO人体姿态基准的进展更快,其mAP指标在一年内从60.5(COCO 2016挑战赛冠军)提升至72.1(COCO 2017挑战赛冠军)。随着姿态估计的迅速成熟,最近引入了一项更具挑战性的任务:“在野外同时进行姿态检测和跟踪”
与此同时,姿态估计的网络架构和实验也日趋复杂,加剧了算法分析和比较的难度。,例如,MPII上的领先方法 [Stacked hourglass,Multi-context attention for human pose estimation,Adversarial posenet,Learning feature pyramids for human pose estimation] 在许多细节上差异较大,其准确性相当。此外,COCO上的代表性工作 [Associative embedding,Towards accurate multi-person pose estimation in the wild,Mask r-cnn,Cascaded pyramid network for multi-person pose estimation,Realtime multi-person 2d pose estimation using part affinity fields] 也很复杂且差异很大,但这些工作间主要在系统层面比较,信息量较少。虽然姿态跟踪的相关工作不多,但由于问题维度和解决方案空间的增加,其系统的复杂性会进一步增加。
本文试图从相反的角度简化此问题:“简单的方法性能可以有多好呢?”,为回答此问题,本项工作为姿态估计和跟踪提供了一个简单有效的baseline,希望能激发新想法并简化评估。
本文提出的姿态估计器在ResNet backbone上添加了几个转置卷积层,这可能是从深度低分辨率特征图中估计热图的最简单方法。我们的单一模型在COCO testdev split上实现了sota 73.7 mAP,较 COCO 2017关键点挑战赛winner的单一模型及其集成模型分别提高了1.6%和0.7%
这项工作没有任何理论依据,它基于简单的技术,并通过全面的消融实验进行验证。请注意,尽管我们取得了更好的结果,但我们并没有声称它优于任何先前的算法。我们并未与之前的方法进行完全公平比较,这也并非我们的意图,本项工作的贡献是坚实的baseline。
ResNet是最常用的特征提取backbone,我们仅在ResNet最后一的卷积层加了一些转置卷积层:
C
5
C_5
C5,整体网络架构如图1©所示。这种结构可以说是从深度低分辨率特征生成热图的最简单方法,Mask R-CNN也采用了这种结构。
默认情况下,使用3个具有BN和ReLU激活的转置卷积层,每层有256个4×4 kernel 的 filter,stride=2,最后加一个 1×1 卷积层来生成 k个关键点预测热图 {H1…Hk}。使用 MSE 作预测热图和GT热图间的损失,第 k 关节GT位置作中心生成2D高斯来生成关节 k 的目标热图
H
^
k
\hat{H}_k
H^k。
讨论: 如图1所示,为理解 baseline 的简单合理性,将其与 Hourglass 和 CPN对比。
COCO Keypoint Challenge 要求在不可控条件下定位多人关键点。COCO train,validation 和 test sets 包含超过20万张图像和25万个具有关键点标注的人体实例,其中的15万个人体实例用于训练和验证。SBL 仅在 COCO train 2017 set(包括57K张图像和150K个人体实例)上进行训练,在val2017 set进行消融实验,最后报告了test-dev2017 set上的最终结果,并与其他模型进行比较。
COCO 评估定义了对象关键点相似性(OKS),并使用 mean average precision (AP) over 10 OKS thresholds作度量。OKS与目标检测中的IoU作用相同,根据预测点和由人体尺度正则化得到的GT点之间的距离进行计算。
训练: 延长gt human box的长或宽为固定比率:height : width = 4 : 3,然后将其从图像中 crop下来,并resize为固定分辨率,默认分辨率:256:192,数据增强包括:scale(±30%),rotation(±40 degrees) 和 flip。
ResNet backbone 通过在ImageNet分类任务预训练初始化,姿态估计的训练中,基本学习率为1e-3,在第90个 epoch 降至1e-4,在第120个 epoch 降至1e-5,共训练140个epoch,Mini-batch size = 128,使用 Adam 优化器,四个GPU。默认使用ResNet-50。
测试: 采用 two-stage 的 top-down 范式,默认使用Faster-rcnn(COCO val2017 上的人体检测精度为 56.4 AP)作人体检测器,根据原始图像和翻转图像的平均热图预测关节位置,从最高响应到第二高响应方向上 1/4 的offset用于获得最终位置。
消融实验:表2对第2节baseline中的各种选项进行了消融实验。
COCO val2017上与其他方法比较:
COCO test-dev set上的比较:
本文提出了一个简单有效的的姿态估计和跟踪 baseline,并在具有挑战性的基准上取得了 sota。该研究希望 SimpleBaseLine 通过简化 idea development 和 evaluation 使该领域受益。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。