赞
踩
我们提出了一种新颖的方法来实时检测未知数量的清晰的二维人体姿势。为了解耦从CNN的激活映射中解析像素级别的身体检测的运行时复杂度,我们的方法,称之为Pose Proposal Networks,使用了一种当前最佳的“只拍一次”物体检测范式,这种方法在一个自底向上的姿态检测场景中使用了网格级别的图片激活映射。身体部分和四肢的检测直接通过single-shot CNN进行。这种方法从概率上重新设计了自底向上的贪心解析步骤,以考虑全局上下文。实验结果又双叒叕吊打当前世界最佳。
目前姿态检测有两种主要方法:
灵感同样来自于YOLO。
将图片分割为H * W个区域,每个区域分配一个候选区域检测集合
本篇文章将要介绍两种能够实时生成一致匹配的松弛方法:
这两个概率都在B的定义里描述过了
其中n属于N = {1,2,3,4,…,N},N表示每个检测目标的合并候选区域数目
而四肢的置信度
那从k1号肢体的n1号区域 到 k2号肢体的n2号区域 的 有向连接,其置信度可以表示为:
和CMU的基础论文相比,这篇论文想直接给差评orz
没有网络结构也没有代码,用一个神奇的CNN就把所有点置信度和关联域算出来了,一脸怀疑…
但是将图片分成格子而不是像素的思路是很棒的,这样就不用限制输入的分辨率问题了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。