当前位置:   article > 正文

python实战:爬取哔哩哔哩视频弹幕_b站弹幕抓取教程

b站弹幕抓取教程

分析页面

打开哔哩哔哩官网https://www.bilibili.com/ ,播放任意一个视频。

键盘 F12 快捷键,或者鼠标右击“检查”打开浏览器的检查页面。

点开视频右侧的“弹幕列表”,点击下面的“查看历史弹幕”,选择一个其他日期。

在开发者工具页面,找到seg.so?type=1&oid=这个请求,右边就是弹幕的 url 地址。

response 内就是乱码的弹幕数据,弹幕内容可以通过 re 正则表达式提取。(本文首发在“程序员coding”公众号)

导入包

import requests
import re
import datetime
  • 1
  • 2
  • 3

请求数据

url = f'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=1385453956&date=2024-01-01'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'cookie': '替换自己的'
}
response = requests.get(url=url, headers=headers)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

解析数据

content_list = re.findall('[\u4e00-\u9fa5]+', response.text)
content = '\n'.join(content_list)
  • 1
  • 2

切换弹幕日期

# 爬取开始日期和结束日期范围内的弹幕
begin = datetime.date(2023, 12, 28)
end = datetime.date(2024, 1, 2)
for i in range((end - begin).days + 1):
    day = begin + datetime.timedelta(days=i)
    url = f'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=1385453956&date={day}'
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

日期区间也可以使用pandas中的date_range函数构造

import pandas as pd
for day in pd.date_range(begin,end).strftime('%Y-%m-%d'):
	url = f'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=1385453956&date={day}'
  • 1
  • 2
  • 3

保存数据

content = '\n'.join(content_list)
with open('弹幕.txt', mode='a', encoding='utf-8') as f:
    f.write(content)
print("保存完成")
  • 1
  • 2
  • 3
  • 4

完整代码

# (本文首发在“程序员coding”公众号)
import requests
import re
import datetime

# content_list存放所有弹幕
content_list = []
# 爬取开始日期和结束日期范围内的弹幕
begin = datetime.date(2023, 12, 28)
end = datetime.date(2024, 1, 2)
for i in range((end - begin).days + 1):
    day = begin + datetime.timedelta(days=i)
    url = f'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=1385453956&date={day}'
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
        'cookie': '替换自己的'
    }
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'

    temp_list = re.findall('[\u4e00-\u9fa5]+', response.text)
    content_list.extend(temp_list)
    print("爬取", day, "日弹幕,获取到:", len(temp_list), "条弹幕,已经增加到总列表。总列表共有", len(content_list),
          "条弹幕。")
print(content_list)
# 保存数据
content = '\n'.join(content_list)
with open('弹幕.txt', mode='a', encoding='utf-8') as f:
    f.write(content)
print("保存完成")

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

pycharm 控制台输出如下,获取到 16589 条弹幕。(本文首发在“程序员coding”公众号)

保存的《弹幕.txt》文件如下:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/471488
推荐阅读
相关标签
  

闽ICP备14008679号