搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
小丑西瓜9
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
EasyAR平面图形跟踪和识别图上显示视频_unity中easyar图像识别
2
WSL——卸载、安装CUDA_wsl卸载
3
python调用YOLOv4训练的.weights模型_weights是什么模型
4
【Python】列表、元组、字典的使用详解(增删改查)_python列表、元组、字典
5
antd vue中 v-decorator 的理解
6
3DGS脚本教程翻译(12)-If - Else 语法
7
【CSS】阿里iconfont的使用方法(另附font-family引入方法)_iconfont.css
8
Sql Server 存储过程
9
MacBook安装gpg2_mac电脑没有gpg
10
unity 资料(API)_unityloader api
当前位置:
article
> 正文
Body estimation 论文阅读笔记(3):Unipose:Unified Human Pose Estimation in Single Images and Videos Bruno Ar_unipose+: a unified framework for 2d and 3d human
作者:小丑西瓜9 | 2024-02-25 11:27:33
赞
踩
unipose+: a unified framework for 2d and 3d human pose estimation in images
Abstract + Introduction
提出了一个通用的结构,这个结构基于 waterfall 的空洞空间
池化
结构,达到了 SOTA
通过结合contextual segmentation 和 Joint localization (上下文分割和联合定位)来进行 body estimation,这个过程是一个 one-stage 的操作
waterfall 在一个级联的结构中采用了 progressive filtering 的方法,与空间金字塔(spatial pyramid)相比保持了多尺度的感受野
本文方法还扩展到了 Unipose-LSTM 用来进行视频中的多帧处理。
Unipose 的提出是受语义分割(semantic segmentation)结构的启发
Unipose 的主要创新是 WASP 模块,即:瀑布空洞空间池化(Waterfall atrous spatial pooling)
由于我们的网络使用了更大的感受野(FOV)和多尺度方法,我们的 Unipose 可以预测连接的位置,从而获得上下文信息。
这个 WASP 受启发于空间金字塔(spatial pyramid)方法,通过结合级联的空洞卷积层和一个并行的池化结构来获得多尺度的感受野。
Related Work
目前常用的方法是基于 CNN 结构进行 pose estimation
CPM(Convolutional Pose Machine) 采用优化的联合检测方法 joint detection 通过把网络分成多个阶段来实现需求
Stacked Hourglass 通过级联的沙漏网络完成 pose estimation
基于此 Openpose 提出了 PAF 场(part affinity fields)来进行多人的检测,降低了运算量,PAF 的思想是通过更加 significant 的 joints 来更好地估计 estimate 那些 less significant 的 joints
multi-context 多上下文的方式基于 hourglass 的基础结构来实现 pose estimation,通过提出了一个加强的 Hourglass Residual Units(HRU) 模块来迅速增加感受野。通过 Conditional Random Fields(CRF) 进行后续处理完成不同 joints 之间的装配(组装)工作。CRF 引入了更多的计算冗余
高分辨率网络(HRNet)包含了高分辨率和低分辨率的特征表示(representations)。开始的时候是高分辨率,然后通过逐步地增加低分辨率的子网络(sub-networks)来形成多个 stages 并且在不同的 sub-networks 之间进行多尺度的融合。HRNet 受益于多分辨率的更大的感受野,这种能力我们在这篇文章中通过 WASP 模块用一种更简单的方式进行实现
Mult-stage Pose network(MSPN)[26]采用了类似的方法,将HRNet结构与跨阶段特征聚合(cross-stage feature aggregation)和从粗到细的监督相结合(coarse-to-fine supervision)
DeepPose 采用一种级联的深度 CNN结构 并且通过回归的方式来预测 body 的 joints。该方法依赖于它的迭代细化(iterative refinement),以更好地预测对称(symmetric)和低置信度关节(lower confidence joints)
最近的一些研究试图利用上下文信息(contextual information)进行姿态估计。
Cascade Prediction Fusion 级联预测融合(CPF)[57]使用图形组件 graphical components 来利用上下文进行姿态估计。
相同地, Cascade Feature Aggregation 旨在使用语义信息和级联方法来检测 pose
GAN 也被用于学习 pose 的上下文信息的相互依赖关系进行 pose estimation
LCR-Net(Location,classificaiton,regression 定位,分类,回归网络)将 pose estimation 通过深度回归技术扩展到 3D 空间中。
空洞卷积和 ASPP 空洞金字塔池化(Astrous Spatial Pyramid Pooling)
语义分割的一大挑战就是传统的 CNN 进行降采样导致最终的特征图分辨率很低,全卷积网络通过上采样(通过转置卷积)解决了分辨率的问题;考虑到语义分割要在维持特征图尺寸的条件下增大感受野,选择空洞卷积来完成操作。
空洞卷积可以避免降采样的同时获得一个多尺度的架构
因为在池化操作过程中引入空间金字塔(spatial pyramid)的操作很成功,因此 ASPP(astrous spatial pyramid pooling) 空洞空间金字塔池化引入了语义分割领域。ASPP 通过 4 个并行的分支,每个分支使用不同的空洞率(astrous rate),这些不同 rate 的空洞卷积采用了一个额外的 factor 设置成 8 来完成快速双线性插值。
这种方式可以让特征图保持和输入图片一样的分辨率。在 ASPP 操作中提升的分辨率和感受野对于 pose estimation 任务来说是有益的,更加有益于在 pose estimation 过程中检索上下文中的 body parts。
此文中使用了 waterfall 结构,更加高效的实现了这种优势(即,增大感受野的同时恢复特征图的分辨率这种优势)
Unipose 的结构
很显然 UniPose 的检测方式类似于目标检测,是一种自顶向下的检测结构,首先检测出每个人的 bounding box 其次对于每个 bounding box 中的人进行 pose estimation 的检测。
通过空洞卷积 astrous conv 获得更大的感受野,并采用 “级联” 的方式将很多个这种空洞卷积进行串联,组成一种 “waterfall” 结构。
此文的 WASP 模块提供了多尺度的特征表示,并同时减小了网络的参数量,提高了模块效率。
Unipose 不需要不同的分支来完成 bounding box 的工作和 joint detection 工作,只使用一个 branch 就能完成框出 human 主体并检测其 joints 的所有工作。
下图展示的是 decoder 网络的结构:
输入图片首先输入一个 deep cnn 中进行特征提取,本文使用 resnet-101,并将其最后一个层的输出替换为 WASP 模块。这样生成的最终特征图由上图的 decoder 网络来处理,最终生成 K 个 heatmaps,每个 heatmap 通过 softmax 函数对应后面一个 joint 的预测概率分布。
然后解码器采用一个双线性插值来恢复到原始的分辨率大小,然后采用一个局部 max 的操作进行姿态估计(pose estimation)
这个 decoder 同时可以产生对可见 joints 和被遮挡 joints 的预测结果。此外,这个 decoder 在不适用 post-processing(后期处理 )和 ASPP 的条件下,产生了一个 bounding box 的检测。
下面的文章将会比较本文提出的 WASP 结构和传统的 ASPP 结构
WASP 模块
WASP 的任务是产生一个 multi-scale 的特征表示
从上图可以看出,这个模块和传统的 ASPP 模块相比采用更小规模的参数来产生更大的感受野 FOV。
WASP 借助空洞卷积 astrous convolution 技术,这种技术也同样是 ASPP 的核心技术,来获得一个大的感受野。同时 WASP 采用了级联的空洞卷积结构,即从左到右依次是不同空洞率的空洞卷积层。
传统的 ASPP 是将 pool 过后的原始特征图直接输入到多个并行的分支中,如下图:
WASP 不是采用这种立即 parallel 的方式,而是首先经过一个卷积层,然后才创建当下的 branch,详细来说就是,当 feature 进入 WASP 之后,要想产生 rate=12 的这个从上到下的 branch,首先要经过 rate=6 的这个空洞卷积,而要产生 rate=18 的这个 branch,则要将特征图首先经过 rate=6 和 rate=12 的卷积层进行卷积操作。这样的话,在每个 branch 创建的过程中,参数量就会很大程度上降低。
WASP 设计的初衷是减少运算的参数量并且克服空洞卷积带来的限制。WASP 中的四个分支分别具有不同大小的感受野并且按照一种 waterfall 的结构进行链接,WASP 以 rate=6 的空洞卷积作为开始,在后面的处理中不断地增大空洞卷积的 rate,(6,12,18,24)这种小卷积核的配置提高了效率,并且通过每个分支创建了不同尺度的特征图表示,最后将他们 concate 起来作为更加复杂的特征表示。
WASP 结构用到 Unipose 里面如下图:
Decoder 模块
decoder 负责把 WASP 模块产生的 score maps 转换成 K 个heatmaps,这 K 个 heatmaps 与最终产生的 bounding box 和 body joints 的预测相关。
首先输入的特征图尺寸是1280×720×3,然后通过 WASP 模块产生的特征尺寸是 256 通道,同样的,通过 ResNet 产生的 low-level 的特征也是 256 通道的。ResNet backbone 产生的 256 通道的特征通过
1 × 1 1×1
1
×
1
卷积和 max 池化过后调整成 48 个通道的特征,然后和 WASP 的 256 通道特征拼接成一个更加复杂的特征,通道维度变成 304 维。然后经过一些列的卷积层,dropout 层和双线性插值操作来还原成原始输入尺寸。最终输出的 K 个 heatmaps 分别负责 K 个 joints 的预测,并通过一个 local max 操作来定位每个 joints。这个 decoder 还输出 heatmaps 用来完成 bounding box 工作而不引入新的 branch。bounding box 没有显示在上图中。
Unipose-LSTM 完成视频中的 pose estimation
视频任务中,采用连续帧之间的相似度和相关性是非常有用的。
通过 LSTM 模块来强化原本的 Unipose 结构,该模块接收来自前一帧的最终热图和来自当前帧的解码器热图,该结构使用 LSTM 后接多个 CNN 层来产生最终的 heatmaps 来做 joint 的检测工作。
数据
预处理
将 joint 的 groundtruth 位置通过 gaussian 处理来生成 groundtruth labels,其中采用
σ = 3 \sigma=3
σ
=
3
来决定位置标签高斯化的拖尾长度。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/小丑西瓜9/article/detail/140588
推荐阅读
article
数字
人正走进现实!AI大脑+
高颜值
_
visible
human
project
...
今年,三星旗下的STAR Labs在CES国际消费电子展上展出了其虚拟
数字
人项目 NEON,NEON 是一种由人工智能所...
赞
踩
article
Multi-
view
Depth Estimation using
Epipolar
Spatio
-...
Multi-
view
Depth Estimation using
Epipolar
Spatio
-
Temporal
N...
赞
踩
article
核
密度估计
python
_
核
密度估计
Kernel
Density
Estimation(KDE)...
在介绍
核
密度评估
Kernel
Density
Estimation(KDE)之前,先介绍下
密度估计
的问题。由给定样本集合...
赞
踩
article
核
密度估计
KDE
(
kernel
density
estimation
)理论及
python
实现...
前言pdf和cdf:https://zhuanlan.zhihu.com/p/644575445核
密度估计
核
密度估计
(k...
赞
踩
article
从零开始实现核
密度估计
(kernel
density
estimation
,KDE)-
python
实...
问题背景核
密度估计
(kernel
density
estimation
)是在概率论中用来估计未知的密度函数,属于非参数检...
赞
踩
article
机器学习算法(二十一):核
密度估计
Kernel
Density
Estimation
(
KDE
)...
1 分布密度函数 给定一个样本集,怎么得到该样本集的分布密度函数,解决这一问题有两个方法:1.1 参数估计方法 简单来讲...
赞
踩
article
R
语言
:核
密度估计
峰值图_
r
ke
r
nel
density
estimation
...
它通过在每个数据点附近放置一个核函数,然后将这些核函数叠加起来,形成一个平滑的曲线,表示数据的密度分布。峰值图可以帮助我...
赞
踩
article
核
密度估计
(
Kernel
density
estimation)...
核
密度估计
(
Kernel
density
estimation)简析_
核
密度估计
核
密度估计
本文...
赞
踩
article
核
密度估计
Kernel
Density
Estimation
(
KDE
)...
备:
密度估计
相关知识
密度估计
经常在统计学中作为一种基于有限的样本来估计其概率密度函数的方法。 在研究随机变量的过程中,...
赞
踩
article
核
密度估计
图(
Kernel
Density
Estimation
,
KDE
)...
分别利用seaborn和scipy, numpy生成
KDE
图_核
密度估计
图核
密度估计
图 ...
赞
踩
article
UE4动画蓝图学习_
local
space
ref
pose
...
Default Chain Length – 默认链长度,值越大关节越短,值为1只改TargetLocation。但设置...
赞
踩
article
3D
Human
Reconstruction
Method
之
NeRF
(简介)...
NeRF
介绍:
NeRF
函数是将一个连续的场景表示为一个输入为5D向量的函数,输入是3D location x = (x,...
赞
踩
article
10、
InstructGPT
:Training
language
models
to
follow
...
InstructGPT
_training
language
models
to
follow
instructions
...
赞
踩
article
InstructGPT
精简总结:Training
language
models
to follo...
InstructGPT
精简总结:Training
language
models
to
follow
instruct...
赞
踩
article
【论文阅读】
InstructGPT
: Training
language
models
to fol...
把语言模型变大并不意味着会让模型更好的理解用户意图,例如大的语言模型会生成一些不真实、有害的、没有帮助的输出给用户,换句...
赞
踩
article
[论文阅读]
InstructGPT
(Training
language
models
to foll...
语言模型(
language
models
)越大大并不意味着它能更好地理解用户的意图。例如,大型语言模型生成输出不真实、有...
赞
踩
article
Training
language
models to follow instructions wi...
更大的模型本质上对于使模型更好地服从用户的意图没有帮助(没有与用户对齐aligned)。文章使用fine-tuning ...
赞
踩
article
Training
language
models
to
follow
instructions
wi...
可以通过“提示”并给定一些任务样例作为输入,大型语言模型(LMS)可以被用来执行一系列自然语言处理(NLP)任务。但是,...
赞
踩
article
【论文学习】
InstructGPT
:Training
language
models
to foll...
把语言模型做大并不会使它们更好地遵循人类的意图。由于语言模型的输出的灵活性,它们可能生成一些不真实的、有毒的或是对用户没...
赞
踩
article
LLMs之
InstructGPT
:《
Training
language
models
to foll...
LLMs之
InstructGPT
:《
Training
language
models
to
follow
instru...
赞
踩
相关标签
vr
r语言
计算机视觉
深度学习
核密度估计python
统计学
python
算法
机器学习
聚类
开发语言
R语言
核函数
核密度估计
数据可视化
Python
KDE图
ue4
学习
3d
语言模型
自然语言处理
人工智能
instructgpt