赞
踩
附件位置:
1.导出模型
docker run --gpus all -it --name env_pyt_1.12 -v $(pwd):/app nvcr.io/nvidia/pytorch:22.03-py3
# 克隆,原GitHub地址:https://github.com/HRNet/HigherHRNet-Human-Pose-Estimation git clone https://github.com/enpeizhao/HigherHRNet-Human-Pose-Estimation.git # 安装 pip install -r requirements.txt # 安装COCOAPI: # COCOAPI=/path/to/clone/cocoapi git clone https://github.com/cocodataset/cocoapi.git $COCOAPI cd $COCOAPI/PythonAPI # Install into global site-packages make install # Alternatively, if you do not have permissions or prefer # not to install the COCO API into global site-packages python3 setup.py install --user # 安装 CrowdPose git clone https://github.com/Jeff-sjtu/CrowdPose # 安装步骤与COCOAPI类似 make install python3 setup.py install --user
# 依赖
pip install onnx onnxruntime onnxsim
# 导出
python tools/export.py --cfg experiments/coco/higher_hrnet/w32_512_adam_lr1e-3.yaml TEST.MODEL_FILE weights/pose_higher_hrnet_w32_512.pth
导出模型后会得到hrnet.onnx
, 和hrnet_sim.onnx
。
附件位置:
2.项目代码
# 构建 cmake -S . -B build cmake --build build # 转TensorRT engine ./build/build --onnx_file ./weights/hrnet_sim.onnx --input_h 512 --input_w 512 --input_c 3 # 启动推流服务器,下载rtsp-simple-server (改名叫mediamtx了),请下载对应的版本 # https://github.com/aler9/mediamtx/releases # 启动rtmp服务器 ./start_server.sh # 测试文件或者视频流 # 单线程 ./build/stream --vid rtsp --hrnet ./weights/hrnet_sim.engine --stream # 多线程 ./build/thread --vid rtsp --hrnet ./weights/hrnet_sim.engine --stream
如果是jetson nano
或者jetson NX
,请使用课程附件:4.jetson
,操作流程参考之前课程。
骨骼点识别(Human Pose Estimation, HPE)是计算机视觉领域中的重要任务,旨在从图像或视频中检测和定位人体关节。目前的骨骼点识别方法主要分为两类:自顶向下(Top-Down)和自底向上(Bottom-Up)。
项目 | 计算复杂度 | 准确性 |
---|---|---|
top-down | 计算复杂度较高,一般人越多越慢。 | 对每个检测到的人体实例进行关键点检测,这使得它在处理遮挡和重叠情况时具有较好的准确性。 但如果人体检测阶段出现误检或漏检,将直接影响关键点检测的准确性。 |
Bottom-up | 计算复杂度相对较低。 但在人体关键点分组阶段,可能需要更复杂的算法来处理遮挡和重叠的情况 | 在关键点检测阶段不受人体检测结果的影响,但在关键点分组阶段可能面临较大的挑战,尤其是在人体遮挡和重叠较为严重的场景中。 |
本文中我们使用的是bottom up的多人骨骼点检测算法——higher hrnet。
参考:HigherHRNet: Scale-Aware Representation Learning for
Bottom-Up Human Pose Estimation
它是基于heat map
的关键点检测算法,并使用associate embedding
将点对应到个人。
如下图,是单人身体不同部位的关键点对应的heatmap,比如这里一共有14张图(14个关键点):
想象一下,如果是多人,则每个人都会检测出来14个关键点:
此时heatmap大致长这样,同一张图上是不同人的同一类型关键点,如第一幅图,是两个人的鼻子的位置
为了将检测结果对应到个人,需要用到Associative Embedding。网络需要对每个关节点的每个像素位置产生一个标签,也就是说,每个关节点的heatmap对应一个标签heatmap,因此,如果一张图片中待检测的关节点有 m 个,则网络理想状态下会输出 2m 个通道, m 个通道用于定位, m 个通道用于分组。
具体来说,可以用非极大值抑制(non-maximun suppression)来取得每个关节heatmap峰值,然后检索其对应位置的标签,再比较所有身体位置的标签,找到足够接近的标签分为一组,这样就将关节点匹配单个人身上,整个过程如下图所示:
参考:Associative Embedding: End-to-End Learning for Joint Detection and Grouping
其中标签所在的heatmap类似分割任务,如下图所示:
如下图:我们检查higher hrnet的网络可以看到2个输出:
最后代码中需要执行以下步骤:
3.NMS演示
下2张图。代码中的动作识别根据关节夹角关系实现:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。