是一种高保真的身体姿势跟踪解决方案,可从 RGB 帧(注:RGB图像帧)在整个身体上渲染 33 个 3D 地标和背景分割蒙版。它利用了 BlazePose[1] 拓扑结构,它是 COCO[2]、BlazeFace[3] 和 BlazePalm[4] 拓扑结构的超集。

pip install -r requirements.txt


1. 导入库

  1. def findDistance(x1, y1, x2, y2):
  2. dist = m.sqrt((x2-x1)**2+(y2-y1)**2)
  3. return dist


该设置要求该人处于正确的侧视图中。函数 findDistance 帮助我们确定两点之间的偏移距离。它可以是臀部、眼睛或肩膀。


3. 计算身体姿势倾斜度的功能

角度是姿势的主要决定因素。我们使用领口和躯干线到 y 轴的角度。领口连接肩膀和眼睛。在这里,我们以肩膀为关键点。



  • P1(x1, y1): 肩部

  • P2(x2, y2): 眼睛

  • P3(x3, y3):垂直轴上通过P1的任意点

显然,对于 P3,x 坐标与 P1 的 x 坐标相同。由于 y3 对所有 y 都有效,为了简单起见,我们取 y3 = 0。

我们采用矢量法求三点的内角。两个向量之间的夹角P12 和P13 由下式给出,

  1. # Calculate angle.
  2. def findAngle(x1, y1, x2, y2):
  3. theta = m.acos( (y2 -y1)*(-y1) / (m.sqrt(
  4. (x2 - x1)**2 + (y2 - y1)**2 ) * y1) )
  5. degree = int(180/m.pi)*theta
  6. return degree


使用此函数可在检测到不良姿势时发送警报。我们把它留空,供你使用。您可以在方便的时候随意发挥创意和定制。例如,您可以连接一个 Telegram Bot 来发出警报,这非常简单。参考部分 [6] 中的链接。或者,您可以通过创建一个 android 应用程序来提升它。

  1. def sendWarning(x):
  2. pass

5. 初始化


  1. # Initialize frame counters.
  2. good_frames = 0
  3. bad_frames = 0
  4. # Font type.
  5. font = cv2.FONT_HERSHEY_SIMPLEX
  6. # Colors.
  7. blue = (255, 127, 0)
  8. red = (50, 50, 255)
  9. green = (127, 255, 0)
  10. dark_blue = (127, 20, 0)
  11. light_green = (127, 233, 100)
  12. yellow = (0, 255, 255)
  13. pink = (255, 0, 255)
  14. # Initialize mediapipe pose class.
  15. mp_pose = mp.solutions.pose
  16. pose = mp_pose.Pose()


1. 创建 Video Capture 和 Video Writer 对象


如您所见,我们正在获取视频元数据以创建视频捕获对象。如果要以 mp4 格式编写,请将编解码器更改为 *'mp4v'。有关视频编写器和处理编解码器的更直观指南,请查看有关的文章。

  1. # For webcam input replace file name with 0.
  2. file_name = 'input.mp4'
  3. cap = cv2.VideoCapture(file_name)
  4. # Meta.
  5. fps = int(cap.get(cv2.CAP_PROP_FPS))
  6. width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
  7. height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
  8. frame_size = (width, height)
  9. fourcc = cv2.VideoWriter_fourcc(*'mp4v')
  10. # Video writer.
  11. video_output = cv2.VideoWriter('output.mp4', fourcc, fps, frame_size)

2. 身体姿势检测主循环

Pose() 解决方案的可配置 API 不需要太多调整。默认值足以检测姿态地标。但是,如果我们希望实用程序代码,则必须将 ENABLE_SEGMENTATION 标志设置为 True。以下是 姿势解决方案中的一些可配置 API。f

  • STATIC_IMAGE_MODE:这是一个布尔值。如果设置为 True,则对每个输入图像运行人员检测。对于视频来说,这不是必需的,因为在视频中,检测运行一次,然后是地标跟踪。默认值为 False。

  • MODEL_COMPLEXITY: 默认值为 1。它可以是 0、1 或 2。如果选择更高的复杂度,推理时间会增加。

  • ENABLE_SEGMENTATION:如果设置为 True,则解决方案会生掩码以及姿势地标。默认值为 False。

  • MIN_DETECTION_CONFIDENCE:范围为 [0.0 – 1.0]。顾名思义,它是检测被视为有效的最小置信度值。默认值为 0.5。

  • MIN_TRACKING_CONFIDENCE:范围为 [0.0 – 1.0]。它是要被视为跟踪的地标的最小置信度值。默认值为 0.5。

通常,默认值做得很好。因此,我们不会在以下部分处理 RGB 帧的处理中传递任何参数,我们可以稍后从中提取姿态地标。最后,我们将图像转换回对 OpenCV 友好的 BGR 彩色空间。mp_pose.Pose().

  1. # Capture frames.
  2. success, image = cap.read()
  3. if not success:
  4. print("Null.Frames")
  5. break
  6. # Get fps.
  7. fps = cap.get(cv2.CAP_PROP_FPS)
  8. # Get height and width of the frame.
  9. h, w = image.shape[:2]
  10. # Convert the BGR image to RGB.
  11. image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
  12. # Process the image.
  13. keypoints = pose.process(image)
  14. # Convert the image back to BGR.
  15. image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)


解决方案输出对象的 pose_landmarks 属性提供地标的归一化 x 和 y 坐标。因此,为了获得实际值,我们需要将输出分别乘以图像的宽度和高度。

地标的 LEFT_SHOULDER“、”RIGHT_SHOULDER“等是 PoseLandmark 类的属性。为了获取归一化坐标,我们使用以下语法。

norm_coordinate  = pose.process(image).pose_landmark.landmark[MediaPipe.solutions.pose.PoseLandmark.<SPECIFIC_LANDMARK>].coordinate


  1. # Use lm and lmPose as representative of the following methods.
  2. lm = keypoints.pose_landmarks
  3. lmPose = mp_pose.PoseLandmark
  4. # Left shoulder.
  5. l_shldr_x = int(lm.landmark[lmPose.LEFT_SHOULDER].x * w)
  6. l_shldr_y = int(lm.landmark[lmPose.LEFT_SHOULDER].y * h)
  7. # Right shoulder.
  8. r_shldr_x = int(lm.landmark[lmPose.RIGHT_SHOULDER].x * w)
  9. r_shldr_y = int(lm.landmark[lmPose.RIGHT_SHOULDER].y * h)
  10. # Left ear.
  11. l_ear_x = int(lm.landmark[lmPose.LEFT_EAR].x * w)
  12. l_ear_y = int(lm.landmark[lmPose.LEFT_EAR].y * h)
  13. # Left hip.
  14. l_hip_x = int(lm.landmark[lmPose.LEFT_HIP].x * w)
  15. l_hip_y = int(lm.landmark[lmPose.LEFT_HIP].y * h)






  1. # Calculate distance between left shoulder and right shoulder points.
  2. offset = findDistance(l_shldr_x, l_shldr_y, r_shldr_x, r_shldr_y)
  3. # Assist to align the camera to point at the side view of the person.
  4. # Offset threshold 30 is based on results obtained from analysis over 100 samples.
  5. if offset < 100:
  6. cv2.putText(image, str(int(offset)) + ' Aligned', (w - 150, 30), font, 0.9, green, 2)
  7. else:
  8. cv2.putText(image, str(int(offset)) + ' Not Aligned', (w - 150, 30), font, 0.9, red, 2)


倾角是使用预定义的函数 findAngle 获得的。地标及其连接如下图所示。

  1. # Calculate angles.
  2. neck_inclination = findAngle(l_shldr_x, l_shldr_y, l_ear_x, l_ear_y)
  3. torso_inclination = findAngle(l_hip_x, l_hip_y, l_shldr_x, l_shldr_y)
  4. # Draw landmarks.
  5. cv2.circle(image, (l_shldr_x, l_shldr_y), 7, yellow, -1)
  6. cv2.circle(image, (l_ear_x, l_ear_y), 7, yellow, -1)
  7. # Let's take y - coordinate of P3 100px above x1, for display elegance.
  8. # Although we are taking y = 0 while calculating angle between P1,P2,P3.
  9. cv2.circle(image, (l_shldr_x, l_shldr_y - 100), 7, yellow, -1)
  10. cv2.circle(image, (r_shldr_x, r_shldr_y), 7, pink, -1)
  11. cv2.circle(image, (l_hip_x, l_hip_y), 7, yellow, -1)
  12. # Similarly, here we are taking y - coordinate 100px above x1. Note that
  13. # you can take any value for y, not necessarily 100 or 200 pixels.
  14. cv2.circle(image, (l_hip_x, l_hip_y - 100), 7, yellow, -1)
  15. # Put text, Posture and angle inclination.
  16. # Text string for display.
  17. angle_text_string = 'Neck : ' + str(int(neck_inclination)) + ' Torso : ' + str(int(torso_inclination))

6. 身体姿势检测条件


特定姿势的时间可以通过将帧数除以 fps 来计算。在我们之前的博客文章中查看 。

  1. # Determine whether good posture or bad posture.
  2. # The threshold angles have been set based on intuition.
  3. if neck_inclination < 40 and torso_inclination < 10:
  4. bad_frames = 0
  5. good_frames += 1
  6. cv2.putText(image, angle_text_string, (10, 30), font, 0.9, light_green, 2)
  7. cv2.putText(image, str(int(neck_inclination)), (l_shldr_x + 10, l_shldr_y), font, 0.9, light_green, 2)
  8. cv2.putText(image, str(int(torso_inclination)), (l_hip_x + 10, l_hip_y), font, 0.9, light_green, 2)
  9. # Join landmarks.
  10. cv2.line(image, (l_shldr_x, l_shldr_y), (l_ear_x, l_ear_y), green, 4)
  11. cv2.line(image, (l_shldr_x, l_shldr_y), (l_shldr_x, l_shldr_y - 100), green, 4)
  12. cv2.line(image, (l_hip_x, l_hip_y), (l_shldr_x, l_shldr_y), green, 4)
  13. cv2.line(image, (l_hip_x, l_hip_y), (l_hip_x, l_hip_y - 100), green, 4)
  14. else:
  15. good_frames = 0
  16. bad_frames += 1
  17. cv2.putText(image, angle_text_string, (10, 30), font, 0.9, red, 2)
  18. cv2.putText(image, str(int(neck_inclination)), (l_shldr_x + 10, l_shldr_y), font, 0.9, red, 2)
  19. cv2.putText(image, str(int(torso_inclination)), (l_hip_x + 10, l_hip_y), font, 0.9, red, 2)
  20. # Join landmarks.
  21. cv2.line(image, (l_shldr_x, l_shldr_y), (l_ear_x, l_ear_y), red, 4)
  22. cv2.line(image, (l_shldr_x, l_shldr_y), (l_shldr_x, l_shldr_y - 100), red, 4)
  23. cv2.line(image, (l_hip_x, l_hip_y), (l_shldr_x, l_shldr_y), red, 4)
  24. cv2.line(image, (l_hip_x, l_hip_y), (l_hip_x, l_hip_y - 100), red, 4)
  25. # Calculate the time of remaining in a particular posture.
  26. good_time = (1 / fps) * good_frames
  27. bad_time = (1 / fps) * bad_frames
  28. # Pose time.
  29. if good_time > 0:
  30. time_string_good = 'Good Posture Time : ' + str(round(good_time, 1)) + 's'
  31. cv2.putText(image, time_string_good, (10, h - 20), font, 0.9, green, 2)
  32. else:
  33. time_string_bad = 'Bad Posture Time : ' + str(round(bad_time, 1)) + 's'
  34. cv2.putText(image, time_string_bad, (10, h - 20), font, 0.9, red, 2)
  35. # If you stay in bad posture for more than 3 minutes (180s) send an alert.
  36. if bad_time > 180:
  37. sendWarning()


这就是构建姿态校正器应用程序的全部内容。在这篇文章中,我们讨论了检测人体姿势的实现。您学习了如何获取姿势地标、可配置的 API、输出等。我希望这篇博文能帮助您了解 姿势的基础知识,并帮助您为下一个项目产生一些新的想法。

