当前位置:   article > 正文

Python采集视频数据,下载流媒体m3u8格式_m3u8 .jpg

m3u8 .jpg

前言

嗨喽!大家好,这里是魔王~

本次目的:

Python采集网站视频,下载流媒体m3u8格式视频
在这里插入图片描述

模块使用:

  • requests >>> pip install requests (数据请求 第三方模块)
  • re # 正则表达式 去匹配提取数据
  • json

开发环境:

  • Python 3.8 解释器
  • Pycharm 2021.2 版本 建议

win + R 输入cmd 输入安装命令 pip install 模块名 如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

爬虫实现流程思路:

一. 数据来源分析
  1. 确定目标网站 >>> 爬取网址是什么 数据是什么
  2. 通过开发者工具进行抓包分析

采集视频

  1. 先看network下面 media(媒体文件包含视频数据或者音频数据) [如果没有数据]
  2. 通过数据包数据慢慢分析

如果说url里面包含 ts 后缀 >>> 视频片段 >>> m3u8视频格式 (有专门m3u8文件保存所有ts文件内容)

m3u8 就是把一个整体视频, 分割成很多视频小片段 一个片段只有几秒时间…
(可以更好缓存, 你看多少,他就给加载多少, 减少服务器压力)

通过上述分析可以知道 只需要获取m3u8文件, 可以获取所有ts视频片段…

在这里插入图片描述

二. 代码实现步骤: 发送请求 获取数据 解析数据 保存数据
第一次请求
  1. 发送请求, 对于视频详情页页面发送请求
  2. 获取数据, 获取网页源代码
  3. 解析数据, 提取我们想要数据内容 视频信息
第二次请求:
  1. 发送请求, 对于m3u8 url地址发送请求
  2. 获取数据, 获取返回ts文件内容
  3. 解析数据, 提取所有ts文件

保存数据, 把视频内容保存本地, 把视频片段合成为一个完整视频
在这里插入图片描述

开始我们得代码

导入模块

# 导入数据请求模块
import requests  # 第三方模块 pip install requests
# 导入正则
import re   # 内置模块 不需要安装
# 导入json
import json     # 内置模块 不需要安装
# 导入格式化输出模块
import pprint    # 内置模块 不需要安装
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

全部代码

for page in 
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/797384
    推荐阅读
    相关标签
      

    闽ICP备14008679号