当前位置:   article > 正文

python程序设计期末大作业,python大作业代码100行_爬虫课程设计项目源码

爬虫课程设计项目源码

大家好,给大家分享一下python期末大作业代码200行带批注,很多人还不知道这一点。下面详细解释一下。现在让我们来看看!

【超详细指北】python大作业!

​ 这是笔者最近写python大作业时写的一个实现过程笔记,也就是基本上可以说是本人从0开始上手的一个python练习。程序和本文档从 4.29-5.15日 总共历时17天快码论文。包含了大部分代码内容。

一、获取数据

(1)user-agent和cookie

user-agent

在这里插入图片描述

Cookie:

在这里插入图片描述

  1. buvid3=11707BB8-8181-70C7-EBE1-FB1609F40FC370555infoc; i-wanna-go-back=-1; _uuid=F4221228-EF95-B7F10-49C1-F710CAC68D109F77140infoc; buvid4=E437889C-0A9F-DEF4-C164-E3F9F456407172347-022032622-MnLxL6Vqo8K/D8N1XzXHLQ%3D%3D; nostalgia_conf=-1; buvid_fp_plain=undefined; blackside_state=1; rpdid=|(J~J|R~m)Jm0J'uYR)Jm~JYR; CURRENT_BLACKGAP=0; hit-dyn-v2=1; LIVE_BUVID=AUTO4316488832212386; bp_article_offset_154100711=649151673891029000; SESSDATA=fbf8b924%2C1666235070%2C5c5a7%2A41; bili_jct=2f4e142aa58387a4ba58d6610a138881; DedeUserID=154100711; DedeUserID__ckMd5=4a5f601a3689140a; sid=7m78ki9o; CURRENT_QUALITY=0; fingerprint=a0d6414c1242c8cb9c9f7b4f70d4d671; b_ut=5; CURRENT_FNVAL=4048; bsource=search_baidu; b_lsid=AB9536C2_1807AC90CF7; _dfcaptcha=0f5ba157af594817171639f2996e0b43; PVID=1; innersign=1; buvid_fp=a0d6414c1242c8cb9c9f7b4f70d4d671; bp_video_offset_154100711=654934739730300900; fingerprint3=5ad9983134e17174abef4db7b440a5ab
(2)commentData类

​ 该类是获取某一视频的所有评论信息,包括一级评论、二级评论,获取了评论用户的基本信息和评论内容。在该类中,设置headersCookie防止反爬,此外还有一个fake_useragent库也可以防止反爬虫,在这里没有使用该库。

写在前面

​ 首先我们来分析一级评论:

一级评论:

在这里插入图片描述

在这里插入图片描述

​ 根据浏览器f12自带的调试中,我们查找存放评论内容的api。这里给出三个不同视频的评论接口:

  1. 三个网页的一级评论api及来源
  2. https://api.bilibili.com/x/v2/reply/main?callback=jQuery17208590914915452643_1651207947683&jsonp=jsonp&next=0&type=1&oid=34491719&mode=3&plat=1&_=1651207949390
  3. 【https://www.bilibili.com/video/BV1ot411R7SM?spm_id_from=333.999.0.0
  4. https://api.bilibili.com/x/v2/reply/main?callback=jQuery33102399794496926384_1651209840924&jsonp=jsonp&next=0&type=1&oid=768445836&mode=3&plat=1&_=1651209840925
  5. 【https://www.bilibili.com/video/BV11r4y1J7cH?spm_id_from=333.999.0.0
  6. https://api.bilibili.com/x/v2/reply/main?callback=jQuery17203622673329462698_1651210156500&jsonp=jsonp&next=0&type=1&oid=721394418&mode=3&plat=1&_=1651210156936
  7. 【https://www.bilibili.com/video/BV1fQ4y1q7SB/?spm_id_from=333.788.recommend_more_video.16
  1. https://api.bilibili.com/x/v2/reply/main?callback=jQuery17208590914915452643_1651207947683&jsonp=jsonp&next=0&type=1&oid=34491719&mode=3&plat=1&_=1651207949390

  2. https://api.bilibili.com/x/v2/reply/main?callback=jQuery33102399794496926384_1651209840924&jsonp=jsonp&next=0&type=1&oid=768445836&mode=3&plat=1&_=1651209840925

  3. https://api.bilibili.com/x/v2/reply/main?callback=jQuery17203622673329462698_1651210156500&jsonp=jsonp&next=0&type=1&oid=721394418&mode=3&plat=1&_=1651210156936

    可见在加粗部分是不同的

第一个api中:

https://api.bilibili.com/x/v2/reply/main?callback=jQuery17208590914915452643_1651207947683&jsonp=jsonp&next=0&type=1&oid=34491719&mode=3&plat=1&_=1651207949390

在这里插入图片描述

删除第一个和最后一个参数(因为我们不需要js请求,最后一个参数也没有什么影响),得到

一级评论:https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&next=0&type=1&oid=34491719&mode=3&plat=1

在这里插入图片描述

  • ​ next:翻页
  • ​ oid:视频编号(aid)
  • ​ mode:1、2表示按热度、时间排序; 0、3表示按热度排序,并显示评论和用户信息
二级评论:

​ 二级评论也就是视频评论的评论,也就是有人回复评论时的评论。

在这里插入图片描述

https://api.bilibili.com/x/v2/reply/reply?callback=jQuery17202729032535004876_1651213886637&jsonp=jsonp&pn=1&type=1&oid=34491719&ps=10&root=1426909940&_=1651213945276

同上删除首尾参数后得到:

二级评论:https://api.bilibili.com/x/v2/reply/reply?jsonp=jsonp&pn=1&type=1&oid=34491719&ps=10&root=1426909940

在这里插入图片描述

  • ​ pn:翻页
  • ​ oid:视频oid
  • ​ ps: 单页显示数量(最大为20)
  • ​ root:楼主的回复的rpid

视频的oid可通过视频BV号获取rpid可以通过一级评论获取(随后我们进行获取)

最后一页评论:

​ 我们自己根据一级评论的api,手动查找到最后一页评论,发现当没有评论时,data下的replies为null,机当前api中next的参数值为最后一页的页码,如果有评论时replies不为空。

因此我们在爬取所有评论时可以将replies是否为null作为循环退出条件。

https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&type=1&oid=34491719&mode=0&plat=1&next=28

在这里插入图片描述

在这里插入图片描述

1.构造函数init

初始化基本内容:

  • mid:up主的uid,传入参数
  • name:up主的姓名,传输参数
  • BV:爬取视频的BV号,传入参数
  • mode:排序方式(这里笔者所写的类中其实一直默认的0,也就是默认排序,其他自测):1、2表示按热度、时间排序; 0、3表示按热度排序,并显示评论和用户信息,传入参数
  • header:请求时的header,默认值,可自行更改
  • cookies:设置header和cookie防止网站反爬,传入参数
  • page:评论页数,通过爬取时根据api返回的replies是否为空进行判断是否爬取完毕,对self.page进行累加,来达到计算总共评论的总数量的目的。
  • BVName:视频名称,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
  • homeUrl:api的网址开头部分
  • oid:视频的id,通过**oid_get(self, BV)**函数返回oid值。
  • replyUrl:一级评论的api
  • rreplyUrl:二级评论的api
  • q:创建的队列,将content_get方法返回爬取内容并存入队列,通过csv_writeIn方法从q队列中进行取出存取,方便多线程工作,是一个生产着消费者模式。
  • count:当前评论楼数,指定主楼数,区别是评论还是评论的评论

因为在获取BVName和oid时,需要homeUrl,所以我们讲homeUrl放置在BVName和oid之前

  1. def __init__(self, mid, name, BV, mode, cookies):
  2. self.mid = mid #up主的uid
  3. self.name = name #up主的账号名称
  4. self.BV = BV # BV:视频id号
  5. self.mode = mode # mode:1、2表示按热度、时间排序; 0、3表示按热度排序,并显示评论和用户信息
  6. self.headers = {
  7. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.50'
  8. }
  9. self.cookies = cookies # 设置headers和Cookie防止反爬,还有一个fake_useragent库也可以用
  10. self.page = 0 # page:评论页数,出最后一页每页20条
  11. self.homeUrl = "https://www.bilibili.com/video/"
  12. self.BVName = self.BVName_get(self.BV)
  13. self.oid = self.oid_get(self.BV)
  14. #一级评论和二级评论
  15. self.replyUrl="https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&type=1&oid={oid}&mode={mode}&plat=1&next=".format(oid=self.oid,mode=mode)#next=0
  16. self.rreplyUrl = "https://api.bilibili.com/x/v2/reply/reply?jsonp=jsonp&type=1&oid={oid}&ps=20&root={root}&pn=".format(oid=self.oid, root="{root}")#pn=1
  17. self.q = queue.Queue() # 用来存放爬取的数据,通过队列可以按顺序,使用多线程存入数据库或csv文件中
  18. # 这里我们用到了队列,好处在于,可以用多线程边爬边存,按顺序先进先出
  19. self.count = 1 # count变量指定主楼数,区别是评论还是评论的评论
2.获取视频oid和获取视频名称方法

​ 方法一:通过正则从response中选择以字符串aid开头的值并将其进行返回。

​ 方法二:通过BeautifulSoup4类获取视频名称,获取含有视频名称的标签,从而通过自带大string方法获取名称

(78条消息) Python中BeautifulSoup库的用法_阎_松的博客-CSDN博客_beautifulsoup库的作用

  1. # 获取视频 oid
  2. def oid_get(self, BV):
  3. # 请求视频页面
  4. response = requests.get(url=self.homeUrl + BV).text
  5. # 用正则表达式 通过视频 bv 号获取 oid
  6. oid = re.findall("\"aid\":([0-9]*),", response)[0]#寻找以字符串aid开头的值
  7. print("oid:" + oid)
  8. return oid
  9. def BVName_get(self,BV):
  10. # 请求视频页面
  11. response = requests.get(url=self.homeUrl + BV).text
  12. soup = BeautifulSoup(response, "html.parser", from_encoding="utf-8")
  13. nameResultSet = soup.find_all(attrs={'class': 'tit'}) # [<span class="tit">城市与山里的差距,真正体验过,我来告诉你!</span>]
  14. result = nameResultSet[0].string #城市与山里的差距,真正体验过,我来告诉你!
  15. print("BVName:" + result)
  16. return result
3.评论内容获取

​ 首先我们请求函数传递url,page(最大页面数,最终代码会删掉这个page参数,因为通过判断replies是否为空来获取所有页码的评论,就不需要指定获取页码的内容了),通过requests库请求数据,需要的数据都在data->replies里面,将该内容用一个列表保存。

在这里插入图片描述

在这里插入图片描述

​ 评论内容详细分析:其中是该视频的主要评论(也就是一级评论),其下有部分回复该评论的子评论,详细内容包含了评论的id、视频的id、时间戳、评论内容等等,其中主要信息为

  1. rpid:评论id
  2. oid:该视频的oid
  3. mid:账户的uid
  4. rcount :回复数
  5. ctime:时间戳
  6. like:点赞数
  7. member–>sign:用户标签,即用户的个性签名
  8. content–>message:评论内容
  9. replies:评论列表
  10. replies–>rpid:子评论的id
  11. replies–>level :用户等级

在这里插入图片描述

​ 获取一级评论的数据:

  1. #获取当前页面的评论
  2. def content_get(self, url, page):
  3. now = 0 # 当前页面
  4. while now<=page:
  5. print("page : <{now}>/<{page}>".format(now=now, page=page))
  6. response = requests.get(url=url+str(now), cookies=self.cookies, headers=self.headers, timeout=10).json() # 把response解析为json格式,通过字典获取
  7. replies = response['data']['replies'] # 评论数据在data->replies 里面,每页有 20 条
  8. now += 1
  9. for reply in replies: # 遍历获取每一条,用reply_clean函数提取数据
  10. line = self.reply_clean(reply)
  11. self.count += 1

​ 因为一二级评论格式基本一致,所以将上面获取一级评论的数据的代码修改一下,增加复用性。

​ 这里新增了level_1来判断是否是一级评论,如果是则进行请求下一级,否则不请求。

​ 此外,这里将page参数进行了删除,通过之前分析的,通过判断replies是否为空来判断是否到达评论的最后一页。

  1. #数据获取:获取当前页面的评论
  2. def content_get(self, url, level_1=True):
  3. # level_1判断是否为一级评论。如果为二级评论,则不请求下一级评论(评论的评论)
  4. now = 1
  5. while True:
  6. if level_1:
  7. print("page : <{now}>".format(now=now))
  8. response = requests.get(url=url + str(now), cookies=self.cookies, headers=self.headers).json()
  9. print(url + str(now))
  10. replies = response['data']['replies'] # 评论数据在data->replies 里面,一共有 20 条
  11. if (replies == None)and(now == 1):
  12. #因为当next==0时和next==1时的评论内容是一样的,所以单独写出来一种情况:该视频没有任何评论
  13. self.page=0
  14. print("该页没有评论......")
  15. return
  16. elif replies == None:
  17. self.page = now - 1
  18. print("评论信息获取完成......")
  19. return
  20. elif replies != None:
  21. now += 1
  22. for reply in replies:
  23. # 一级评论则去请求下一级评论
  24. if level_1:
  25. line = self.reply_clean(reply, self.count)
  26. self.count += 1
  27. else:
  28. line = self.reply_clean(reply)
  29. self.q.put(line)
  30. # 这儿我们可以筛选一下,如果有二级评论,调用函数请求二级评论
  31. if level_1 == True and line[-2] != 0:#如果是一级评论且 回复数 不为零 则去请求二级评论
  32. self.content_get(url=self.rreplyUrl.format(root=str(line[-1])), level_1=False) # 递归获取二级评论
4.数据清洗

​ 因为replies下的数据过多而且繁杂,而我们不需要这么多的数据,所以我们进行一下数据的“清洗”,只返回我们需要的数据信息。

​ 将评论时间的时间戳通过time库转换成正常格式。通过之前分析的含义,将需要的信息保存并且返回为列表类型。为了使程序更具用复用性,这里兼容清洗二级评论数据,增加count参数,默认为false,表示是否是二级评论。

​ 如果是二级评论,则返回数据第一个为"回复",否则为楼号。

​ 二级评论没有回复数rcount,三级评论都显示为 回复xxx @谁谁谁

  1. # 数据清洗,将我们需要的数据进行筛选返回
  2. def reply_clean(self, reply, count=False):
  3. # 这个函数可以爬一级评论也能爬二级评论
  4. # count 参数,看看是不是二级评论。
  5. name = reply['member']['uname'] # 名字
  6. sex = reply['member']['sex'] # 性别:男/女/保密
  7. mid = reply['member']['mid'] # 帐号的uid
  8. sign = reply['member']['sign'] # 个性签名
  9. rpid = reply['rpid'] # 评论的id,爬二级评论要用到
  10. rcount = reply['rcount'] # 回复数
  11. level = reply['member']['level_info']['current_level'] # 用户等级
  12. like = reply['like'] # 点赞数
  13. content = reply['content']['message'].replace("\n", "") # 评论内容
  14. t = reply['ctime'] #时间戳
  15. timeArray = time.localtime(t)
  16. otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) # 评论时间,时间戳转为标准时间格式,2022-05-05 19:15:14
  17. # 如果是二级评论,则返回数据第一个为"回复",否则为楼号
  18. # 二级评论没有回复数rcount,三级评论都显示为 回复xxx @谁谁谁
  19. if count:
  20. return [count, name, sex, level, mid, sign, otherStyleTime, content, like, rcount, rpid]
  21. else:
  22. return ["回复", name, sex, level, mid, sign, otherStyleTime, content, like, ' ', rpid]
5.存储评论内容

​ 将信息存放在dirname的文件夹下,在该文件夹下细分为up主自己的文件夹和视频的文件夹。每次写入一行数据,即将line的列表信息进行写入。不断从队列q中取出内容并保存。最后恢复到开始的工作目录。

完整代码:

  1. #csv文件保存数据
  2. def csv_writeIn(self, mid, name, BV, BVName ):
  3. dirname = '视频评论信息'
  4. begin = os.getcwd() # 保存开始文件工作路径
  5. # 如果没有该文件夹则创建一个
  6. if not os.path.isdir(dirname):
  7. os.mkdir(dirname)
  8. os.chdir(dirname) # 改变当前工作目录到指定的路径
  9. fileName = str(mid) + "-" + str(name) # up主的文件夹:uid-name
  10. if not os.path.isdir(fileName):
  11. os.mkdir(fileName)
  12. os.chdir(fileName)
  13. fileName = str(BV) + "-" + str(BVName) # BV视频的文件夹:BV-BVname
  14. if not os.path.isdir(fileName):
  15. os.mkdir(fileName)
  16. os.chdir(fileName)
  17. file = open("bilibili评论_" + BV + ".csv", "w", encoding="utf-8", newline="")
  18. f = csv.writer(file)
  19. line1 = ['楼层', '姓名', '性别', '等级', 'uid', '个性签名', '评论时间', '评论内容', '点赞数', '回复数', 'rpid']
  20. f.writerow(line1)
  21. file.flush()
  22. while True:
  23. try:
  24. line = self.q.get(timeout=10)
  25. except:
  26. break
  27. f.writerow(line)
  28. file.flush()
  29. file.close()
  30. os.chdir(begin) # 恢复文件工作路径
6.commentData类代码
  1. import os
  2. import time
  3. import requests
  4. import re
  5. import queue
  6. import csv
  7. from threading import Thread
  8. from bs4 import BeautifulSoup
  9. #该类实现爬取保存一个视频的评论信息。
  10. class commentData:
  11. #构造函数__init__,设置基础信息
  12. def __init__(self, mid, name, BV, mode, cookies):
  13. self.mid = mid #up主的uid
  14. self.name = name #up主的账号名称
  15. self.BV = BV # BV:视频id号
  16. self.mode = mode # mode:1、2表示按热度、时间排序; 0、3表示按热度排序,并显示评论和用户信息
  17. self.headers = {
  18. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.50'
  19. }
  20. self.cookies = cookies # 设置headers和Cookie防止反爬,还有一个fake_useragent库也可以用
  21. self.page = 0 # page:评论页数,出最后一页每页20条
  22. self.homeUrl = "https://www.bilibili.com/video/"
  23. self.BVName = self.BVName_get(self.BV)
  24. self.oid = self.oid_get(self.BV)
  25. #一级评论和二级评论
  26. self.replyUrl="https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&type=1&oid={oid}&mode={mode}&plat=1&next=".format(oid=self.oid,mode=mode)#next=0
  27. self.rreplyUrl = "https://api.bilibili.com/x/v2/reply/reply?jsonp=jsonp&type=1&oid={oid}&ps=20&root={root}&pn=".format(oid=self.oid, root="{root}")#pn=1
  28. self.q = queue.Queue() # 用来存放爬取的数据,通过队列可以按顺序,使用多线程存入数据库或csv文件中
  29. # 这里我们用到了队列,好处在于,可以用多线程边爬边存,按顺序先进先出
  30. self.count = 1 # count变量指定主楼数,区别是评论还是评论的评论
  31. # 获取视频 oid
  32. def oid_get(self, BV):
  33. # 请求视频页面
  34. response = requests.get(url=self.homeUrl + BV).text
  35. # 用正则表达式 通过视频 bv 号获取 oid
  36. oid = re.findall("\"aid\":([0-9]*),", response)[0]#寻找以字符串aid开头的值
  37. print("oid:" + oid)
  38. return oid
  39. def BVName_get(self,BV):
  40. # 请求视频页面
  41. response = requests.get(url=self.homeUrl + BV).text
  42. soup = BeautifulSoup(response, "html.parser", from_encoding="utf-8")
  43. nameResultSet = soup.find_all(attrs={'class': 'tit'}) # [<span class="tit">城市与山里的差距,真正体验过,我来告诉你!</span>]
  44. BVName = nameResultSet[0].string #城市与山里的差距,真正体验过,我来告诉你!
  45. print("BVName:" + BVName)
  46. return BVName
  47. #数据获取:获取当前页面的评论
  48. def content_get(self, url, level_1=True):
  49. # level_1判断是否为一级评论。如果为二级评论,则不请求下一级评论(评论的评论)
  50. now = 1
  51. while True:
  52. if level_1:
  53. print("page : <{now}>".format(now=now))
  54. response = requests.get(url=url + str(now), cookies=self.cookies, headers=self.headers).json()
  55. print(url + str(now))
  56. replies = response['data']['replies'] # 评论数据在data->replies 里面,一共有 20 条
  57. if (replies == None)and(now == 1):
  58. #因为当next==0时和next==1时的评论内容是一样的,所以单独写出来一种情况:该视频没有任何评论
  59. self.page=0
  60. print("该页没有评论......")
  61. return
  62. elif replies == None:
  63. self.page = now - 1
  64. print("评论信息获取完成......")
  65. return
  66. elif replies != None:
  67. now += 1
  68. for reply in replies:
  69. # 一级评论则去请求下一级评论
  70. if level_1:
  71. line = self.reply_clean(reply, self.count)
  72. self.count += 1
  73. else:
  74. line = self.reply_clean(reply)
  75. self.q.put(line)
  76. # 这儿我们可以筛选一下,如果有二级评论,调用函数请求二级评论
  77. if level_1 == True and line[-2] != 0:#如果是一级评论且 回复数 不为零 则去请求二级评论
  78. self.content_get(url=self.rreplyUrl.format(root=str(line[-1])), level_1=False) # 递归获取二级评论
  79. # 数据清洗,将我们需要的数据进行筛选返回
  80. def reply_clean(self, reply, count=False):
  81. # 这个函数可以爬一级评论也能爬二级评论
  82. # count 参数,看看是不是二级评论。
  83. name = reply['member']['uname'] # 名字
  84. sex = reply['member']['sex'] # 性别:男/女/保密
  85. mid = reply['member']['mid'] # 帐号的uid
  86. sign = reply['member']['sign'] # 个性签名
  87. rpid = reply['rpid'] # 评论的id,爬二级评论要用到
  88. rcount = reply['rcount'] # 回复数
  89. level = reply['member']['level_info']['current_level'] # 用户等级
  90. like = reply['like'] # 点赞数
  91. content = reply['content']['message'].replace("\n", "") # 评论内容
  92. t = reply['ctime'] #时间戳
  93. timeArray = time.localtime(t)
  94. otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) # 评论时间,时间戳转为标准时间格式,2022-05-05 19:15:14
  95. # 如果是二级评论,则返回数据第一个为"回复",否则为楼号
  96. # 二级评论没有回复数rcount,三级评论都显示为 回复xxx @谁谁谁
  97. if count:
  98. return [count, name, sex, level, mid, sign, otherStyleTime, content, like, rcount, rpid]
  99. else:
  100. return ["回复", name, sex, level, mid, sign, otherStyleTime, content, like, ' ', rpid]
  101. #csv文件保存数据
  102. def csv_writeIn(self, mid, name, BV, BVName ):
  103. dirname = '视频评论信息'
  104. begin = os.getcwd() # 保存开始文件工作路径
  105. # 如果没有该文件夹则创建一个
  106. if not os.path.isdir(dirname):
  107. os.mkdir(dirname)
  108. os.chdir(dirname) # 改变当前工作目录到指定的路径
  109. fileName = str(mid) + "-" + str(name) # up主的文件夹:uid-name
  110. if not os.path.isdir(fileName):
  111. os.mkdir(fileName)
  112. os.chdir(fileName)
  113. fileName = str(BV) + "-" + str(BVName) # BV视频的文件夹:BV-BVname
  114. if not os.path.isdir(fileName):
  115. os.mkdir(fileName)
  116. os.chdir(fileName)
  117. file = open("bilibili评论_" + BV + ".csv", "w", encoding="utf-8", newline="")
  118. f = csv.writer(file)
  119. line1 = ['楼层', '姓名', '性别', '等级', 'uid', '个性签名', '评论时间', '评论内容', '点赞数', '回复数', 'rpid']
  120. f.writerow(line1)
  121. file.flush()
  122. while True:
  123. try:
  124. line = self.q.get(timeout=10)
  125. except:
  126. break
  127. f.writerow(line)
  128. file.flush()
  129. file.close()
  130. os.chdir(begin) # 恢复文件工作路径
  131. def main(self):
  132. #创建队列,方便多线程程序进行
  133. T = []
  134. T.append(Thread(target=self.content_get, args=(self.replyUrl, )))
  135. T.append(Thread(target=self.csv_writeIn, args=(self.mid,self.name,self.BV,self.BVName)))
  136. print("开始爬取...")
  137. for t in T:
  138. t.start()
  139. for t in T:
  140. t.join()
  141. if __name__ == '__main__':
  142. cookie = "buvid3=11707BB8-8181-70C7-EBE1-FB1609F40FC370555infoc; i-wanna-go-back=-1; _uuid=F4221228-EF95-B7F10-49C1-F710CAC68D109F77140infoc; buvid4=E437889C-0A9F-DEF4-C164-E3F9F456407172347-022032622-MnLxL6Vqo8K/D8N1XzXHLQ%3D%3D; nostalgia_conf=-1; buvid_fp_plain=undefined; blackside_state=1; rpdid=|(J~J|R~m)Jm0J'uYR)Jm~JYR; CURRENT_BLACKGAP=0; hit-dyn-v2=1; LIVE_BUVID=AUTO4316488832212386; bp_article_offset_154100711=649151673891029000; CURRENT_QUALITY=0; b_ut=5; fingerprint3=5ad9983134e17174abef4db7b440a5ab; CURRENT_FNVAL=4048; PVID=1; SESSDATA=da01081b%2C1667737162%2C066fd%2A51; bili_jct=e257a396d8d258b042d32a8aa9494f9e; DedeUserID=154100711; DedeUserID__ckMd5=4a5f601a3689140a; sid=ldg719nz; fingerprint=19c41c196550f8268e8c94867b19f6d8; buvid_fp=19c41c196550f8268e8c94867b19f6d8; innersign=1; bp_video_offset_154100711=659031889417338900; b_lsid=2A8FAA105_180B3D96C31"
  143. cookies = {}
  144. for c in cookie.split(";"):
  145. b = c.split("=")
  146. cookies[b[0]] = b[1]
  147. commentData = commentData(382193067, '巫托邦', 'BV1344y1u7K8', 0, cookies)
  148. commentData.main()
  149. """
  150. ==========================
  151. @auther:JingDe
  152. @Date:2022/4/29 14:53
  153. @email:
  154. @IDE:PyCharm
  155. ==========================
  156. """

运行该类,结果示意图为:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

(3)upData_.py文件

​ 写在前面,因为需要每隔一段时间爬取一次up主的信息,因此我们最好把程序一直放置后台运行。这里,笔者是把需要一直运行的程序放置在安装好Linux系统的树莓派中,让树莓派24h不间断运行,每隔一段时间进行爬取一次数据。这里是获取up主的基本数据,我们把upData类timer类写在一个文件中,运行该文件,通过24h每隔一小时爬取一次up主的信息并保存。

upData类

​ 这个类是用来获取up主粉丝数量基本相关信息。

1.up主粉丝数,关注数,uid

在这里插入图片描述

在这里插入图片描述

  • follower: 粉丝数(1253342)
  • following: up主关注数(6)
  • mid: up主uid(382193067)

我们在up主的主页中,可以看到粉丝数量等基本信息。通过f12查找相关api中预览内容,发现粉丝数,关注数,mid的接口如下:

https://api.bilibili.com/x/relation/stat?vmid=382193067&jsonp=jsonp

去掉mid(up主的uid)后即为接口:

https://api.bilibili.com/x/relation/stat?vmid=######&jsonp=jsonp
2.点赞数,播放数,阅读数

在这里插入图片描述

  • archive:view:播放数 (104483845)
  • article:view:阅读数(0)
  • likes: 点赞数:(10817191)

同上,我们预览相关接口的内容可以找到点赞数,播放数,阅读数的api接口如下:

https://api.bilibili.com/x/space/upstat?mid=382193067&jsonp=jsonp

去掉mid后即为接口:

https://api.bilibili.com/x/space/upstat?mid=#####&jsonp=jsonp

得到获得的两个api:

  • up主粉丝数,关注数,uid

    https://api.bilibili.com/x/relation/stat?vmid=######&jsonp=jsonp
    
  • 点赞数,播放数,阅读数

    https://api.bilibili.com/x/space/upstat?mid=#####&jsonp=jsonp
    

    创建好工作文件夹,即准备把up主信息存放的目的文件。

​ 在构造函数init里面进行 初始化headers,cookie。

​ 通过up主的uidname进行数据获取。定义好之前分析的链接,进行请求,将请求结果保存在response1和response2中,然后选择我们需要的信息进行返回一个数据列表。

​ 获取到数据后,我们讲其存放到本地,保存为csv格式。首先创建一个up主信息文件夹,然后在该文件夹下寻找需存放up主的文件夹,如果存在,则在其后进行追加即可,若不存在,则创建再添加。保存成功后讲其信息进行控制台输出

3.updata类为:
  1. import os
  2. import time
  3. import requests
  4. import csv
  5. class upData:
  6. #构造函数__init__,设置基础信息
  7. def __init__(self, cookies):
  8. # 设置headers和Cookie防止反爬,还有一个fake_useragent库也可以用
  9. self.headers = {
  10. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.50'
  11. }
  12. self.cookies = cookies
  13. #数据获取:
  14. def content_get(self, mid, name):
  15. # mid:up主的uid
  16. # name:up主的名称
  17. mid = str(mid)
  18. name = str(name)
  19. url1 = "https://api.bilibili.com/x/relation/stat?vmid=" + mid + "&jsonp=jsonp" # up主粉丝数,关注数,阅读数
  20. url2 = "https://api.bilibili.com/x/space/upstat?mid=" + mid + "&jsonp=jsonp" # 点赞数,播放数,阅读数
  21. response1 = requests.get(url=url1, cookies=self.cookies, headers=self.headers).json()#{'code': 0, 'message': '0', 'ttl': 1, 'data': {'mid': 382193067, 'following': 6, 'whisper': 0, 'black': 0, 'follower': 1253218}}
  22. response2 = requests.get(url=url2, cookies=self.cookies, headers=self.headers).json()
  23. for i in response1:
  24. data1 = response1['data']
  25. for j in response2:
  26. data2 = response2['data']
  27. uid = mid #up的uid
  28. upName = name #up的名称
  29. follower = data1['follower'] #粉丝数
  30. following = data1['following'] #关注数
  31. likes = data2['likes'] #点赞数
  32. archive = data2['archive']['view'] #播放数
  33. article = data2['article']['view'] #阅读数
  34. ctime=time.time() #时间戳
  35. data=[ctime, uid, upName, follower, following, likes, archive, article]
  36. return data
  37. #csv文件保存数据
  38. def csv_writeIn(self, mid, name):
  39. dirname = 'up主信息'
  40. flag = False#标志是否写表头,默认不写(默认没有该up主的文件夹,即没有他的信息)
  41. begin=os.getcwd()#保存开始文件工作路径
  42. # 如果没有该文件夹则创建一个
  43. if not os.path.isdir(dirname):
  44. os.mkdir(dirname)
  45. os.chdir(dirname) # 改变当前工作目录到指定的路径
  46. fileName = str(mid) + "-" + str(name) # up主的文件夹:uid+name
  47. if not os.path.isdir(fileName):
  48. flag = True
  49. os.mkdir(fileName)
  50. os.chdir(fileName)
  51. file = open(fileName + ".csv", "a", encoding="utf-8", newline="")
  52. f = csv.writer(file)
  53. if(flag):
  54. line1 = ['时间', 'uid帐号', 'up主名称', '粉丝数', '关注数', '点赞数', '播放数', '阅读数']
  55. f.writerow(line1)
  56. file.flush()
  57. data=self.content_get(mid, name)
  58. f.writerow(data)
  59. file.flush()
  60. file.close()
  61. timeArray = time.localtime(data[0])
  62. print(time.strftime("%Y-%m-%d %H:%M:%S", timeArray) + ":该up基本信息如下......")
  63. print("uid:%s up主名称:%s 粉丝数:%d 关注数:%d 点赞数:%d 播放数:%d 阅读数:%d"%(data[1],data[2],data[3],data[4],data[5],data[6],data[7]))
  64. print("保存完毕......")
  65. os.chdir(begin)#恢复文件工作路径
  66. def main(self, mid, name):
  67. print("开始获取up主基本信息......")
  68. self.csv_writeIn(mid, name)
  69. # if __name__ == '__main__':
  70. # cookie = "buvid3=11707BB8-8181-70C7-EBE1-FB1609F40FC370555infoc; i-wanna-go-back=-1; _uuid=F4221228-EF95-B7F10-49C1-F710CAC68D109F77140infoc; buvid4=E437889C-0A9F-DEF4-C164-E3F9F456407172347-022032622-MnLxL6Vqo8K/D8N1XzXHLQ%3D%3D; nostalgia_conf=-1; buvid_fp_plain=undefined; blackside_state=1; rpdid=|(J~J|R~m)Jm0J'uYR)Jm~JYR; CURRENT_BLACKGAP=0; hit-dyn-v2=1; LIVE_BUVID=AUTO4316488832212386; bp_article_offset_154100711=649151673891029000; SESSDATA=fbf8b924%2C1666235070%2C5c5a7%2A41; bili_jct=2f4e142aa58387a4ba58d6610a138881; DedeUserID=154100711; DedeUserID__ckMd5=4a5f601a3689140a; sid=7m78ki9o; CURRENT_QUALITY=0; fingerprint=a0d6414c1242c8cb9c9f7b4f70d4d671; b_ut=5; CURRENT_FNVAL=4048; bsource=search_baidu; b_lsid=AB9536C2_1807AC90CF7; _dfcaptcha=0f5ba157af594817171639f2996e0b43; PVID=1; innersign=1; buvid_fp=a0d6414c1242c8cb9c9f7b4f70d4d671; bp_video_offset_154100711=654934739730300900; fingerprint3=5ad9983134e17174abef4db7b440a5ab"
  71. # cookies = {}
  72. # for c in cookie.split(";"):
  73. # b = c.split("=")
  74. # cookies[b[0]] = b[1] #b0和b1分别是cookie的关键字和值,也就是将cookie转换为字典类型
  75. # bilibili = upData(cookies)
  76. # bilibili.main(382193067,'巫托邦')
  77. # bilibili.main(431313625, '小蓝和他的朋友日常号')
  78. # bilibili.main(627888730, '星有野')
  79. # bilibili.main(946974, '影视飓风')
  80. # bilibili.main(163637592, '老师好我叫何同学')
MyTimer类

[(78条消息) Python:录记个做,写写便随_Ambitioner_c的博客-CSDN博客](https://blog.csdn.net/qq_41297934/article/details/105371870?ops_request_misc=&request_id=&biz_id=102&utm_term=Python 实现某个功能每隔一段时间被执行一次的功能方法&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-8-105371870.142v9pc_search_result_control_group,157v4control&spm=1018.2226.3001.4187)

(78条消息) Python 实现某个功能每隔一段时间被执行一次的功能_独一无二的小个性的博客-CSDN博客_python 每隔一段时间

[(78条消息) Python实现定时任务的几种方法_从流域到海域的博客-CSDN博客_python定时任务的实现方式](https://blog.csdn.net/Solo95/article/details/122026111?ops_request_misc=&request_id=&biz_id=102&utm_term=Python 实现某个功能每隔一段时间被执行一次的功能方法&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-5-122026111.142v9pc_search_result_control_group,157v4control&spm=1018.2226.3001.4187)

这是一个timer封装的定时器类,可以每隔一段时间自动执行。以下是需要注意的参数信息,和需要运行的方法。

  1. tmr = MyTimer( start, 60*60, aa.hello, [ "owenliu", 18 ] )
  2. #start 为当前时间,
  3. #60*60 为代码循环周期(这里为 1h),
  4. #aa.hello 为回调函数,
  5. #["owenliu", 18] 为回调函数的参数
  1. def hello(name, age):
  2. print("[%s]\thello %s: %d\n" % (datetime.now().strftime("%Y%m%d %H:%M:%S"), name, age))
Mytimer类内容:
  1. # -*- coding: utf-8 -*-
  2. # ==================================================
  3. # 对 Timer 做以下再封装的目的是:当某个功能需要每隔一段时间被
  4. # 执行一次的时候,不需要在回调函数里对 Timer 做重新安装启动
  5. # ==================================================
  6. __author__ = 'liujiaxing'
  7. from threading import Timer
  8. from datetime import datetime
  9. class MyTimer(object):
  10. def __init__(self, start_time, interval, callback_proc, args=None, kwargs=None):
  11. self.__timer = None
  12. self.__start_time = start_time
  13. self.__interval = interval
  14. self.__callback_pro = callback_proc
  15. self.__args = args if args is not None else []
  16. self.__kwargs = kwargs if kwargs is not None else {}
  17. def exec_callback(self, args=None, kwargs=None):
  18. self.__callback_pro(*self.__args, **self.__kwargs)
  19. self.__timer = Timer(self.__interval, self.exec_callback)
  20. self.__timer.start()
  21. def start(self):
  22. interval = self.__interval - (datetime.now().timestamp() - self.__start_time.timestamp())
  23. print(interval)
  24. self.__timer = Timer(interval, self.exec_callback)
  25. self.__timer.start()
  26. def cancel(self):
  27. self.__timer.cancel()
  28. self.__timer = None
  29. class AA:
  30. @staticmethod
  31. def hello(name, age):
  32. print("[%s]\thello %s: %d\n" % (datetime.now().strftime("%Y%m%d %H:%M:%S"), name, age))
  33. if __name__ == "__main__":
  34. aa = AA()
  35. start = datetime.now().replace(minute=3, second=0, microsecond=0)
  36. tmr = MyTimer(start, 60 * 60, aa.hello, ["owenliu", 18])
  37. tmr.start()
  38. tmr.cancel()

修改循环时间,即MyTimer的第二个参数。

​ upData类和MyTimer类完成之后,我们讲两个类合并在一起,写到一个文件中并将其在树莓派进行“挂机”执行,值得注意的是,因为我们的cookie是写“死”的,事实上这个cookie每隔一段时间就会过期,需要更新这里给出下次参考链接来自适应更新cookie,笔者这里因为首要目标是完成python大作业,暂时没有完善这个功能,需要的朋友可自行研究。

(78条消息) python session保持cookie_python接口自动化测试八:更新Cookies、session保持会话_冷君聊大片的博客-CSDN博客

​ 回到正题,我们将两个类合并在一起并且命名为auto_.py文件,其实把这两个分开也行,只不过笔者在树莓派运行的时候,因为环境的差异,自己写的模块在import的时候会有问题,因为时间原因,最简单直接的办法就是将这两个合并在一起,事实上我也是这样做的。

auto_.py的内容:
  1. # encoding: utf-8
  2. import os
  3. import time
  4. from threading import Timer
  5. from datetime import datetime
  6. import requests
  7. import csv
  8. class upData:
  9. #构造函数__init__,设置基础信息
  10. def __init__(self, cookies):
  11. # 设置headers和Cookie防止反爬,还有一个fake_useragent库也可以用
  12. self.headers = {
  13. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36 Edg/101.0.1210.39'
  14. }
  15. self.cookies = cookies
  16. #数据获取:
  17. def content_get(self, mid, name):
  18. # mid:up主的uid
  19. # name:up主的名称
  20. mid = str(mid)
  21. name = str(name)
  22. url1 = "https://api.bilibili.com/x/relation/stat?vmid=" + mid + "&jsonp=jsonp" # up主粉丝数,关注数,阅读数
  23. url2 = "https://api.bilibili.com/x/space/upstat?mid=" + mid + "&jsonp=jsonp" # 点赞数,播放数,阅读数
  24. response1 = requests.get(url=url1, cookies=self.cookies, headers=self.headers).json()#{'code': 0, 'message': '0', 'ttl': 1, 'data': {'mid': 382193067, 'following': 6, 'whisper': 0, 'black': 0, 'follower': 1253218}}
  25. response2 = requests.get(url=url2, cookies=self.cookies, headers=self.headers).json()
  26. for i in response1:
  27. data1 = response1['data']
  28. for j in response2:
  29. data2 = response2['data']
  30. uid = mid #up的uid
  31. upName = name #up的名称
  32. follower = data1['follower'] #粉丝数
  33. following = data1['following'] #关注数
  34. likes = data2['likes'] #点赞数
  35. archive = data2['archive']['view'] #播放数
  36. article = data2['article']['view'] #阅读数
  37. ctime=time.time() #时间戳
  38. data=[ctime, uid, upName, follower, following, likes, archive, article]
  39. return data
  40. #csv文件保存数据
  41. def csv_writeIn(self, mid, name):
  42. dirname = 'up主信息'
  43. flag = False#标志是否写表头,默认不写(默认没有该up主的文件夹,即没有他的信息)
  44. begin=os.getcwd()#保存开始文件工作路径
  45. # 如果没有该文件夹则创建一个
  46. if not os.path.isdir(dirname):
  47. os.mkdir(dirname)
  48. os.chdir(dirname) # 改变当前工作目录到指定的路径
  49. fileName = str(mid) + "-" + str(name) # up主的文件夹:uid+name
  50. if not os.path.isdir(fileName):
  51. flag = True
  52. os.mkdir(fileName)
  53. os.chdir(fileName)
  54. file = open(fileName + ".csv", "a", encoding="utf-8", newline="")
  55. f = csv.writer(file)
  56. if(flag):
  57. line1 = ['时间', 'uid帐号', 'up主名称', '粉丝数', '关注数', '点赞数', '播放数', '阅读数']
  58. f.writerow(line1)
  59. file.flush()
  60. data=self.content_get(mid, name)
  61. f.writerow(data)
  62. file.flush()
  63. file.close()
  64. timeArray = time.localtime(data[0])
  65. print(time.strftime("%Y-%m-%d %H:%M:%S", timeArray) + ":该up基本信息如下......")
  66. print("uid:%s up主名称:%s 粉丝数:%d 关注数:%d 点赞数:%d 播放数:%d 阅读数:%d"%(data[1],data[2],data[3],data[4],data[5],data[6],data[7]))
  67. print("保存完毕......")
  68. os.chdir(begin)#恢复文件工作路径
  69. def main(self, mid, name):
  70. print("开始获取up主基本信息......")
  71. self.csv_writeIn(mid, name)
  72. class MyTimer(object):
  73. def __init__(self, start_time, interval, callback_proc, args=None, kwargs=None):
  74. self.__timer = None
  75. self.__start_time = start_time
  76. self.__interval = interval
  77. self.__callback_pro = callback_proc
  78. self.__args = args if args is not None else []
  79. self.__kwargs = kwargs if kwargs is not None else {}
  80. def exec_callback(self, args=None, kwargs=None):
  81. self.__callback_pro(*self.__args, **self.__kwargs)
  82. self.__timer = Timer(self.__interval, self.exec_callback)
  83. self.__timer.start()
  84. def start(self):
  85. interval = self.__interval - (datetime.now().timestamp() - self.__start_time.timestamp())
  86. # print(interval)
  87. self.__timer = Timer(interval, self.exec_callback)
  88. self.__timer.start()
  89. def cancel(self):
  90. self.__timer.cancel()
  91. self.__timer = None
  92. if __name__ == "__main__":
  93. cookie = "buvid3=11707BB8-8181-70C7-EBE1-FB1609F40FC370555infoc; i-wanna-go-back=-1; _uuid=F4221228-EF95-B7F10-49C1-F710CAC68D109F77140infoc; buvid4=E437889C-0A9F-DEF4-C164-E3F9F456407172347-022032622-MnLxL6Vqo8K/D8N1XzXHLQ%3D%3D; nostalgia_conf=-1; buvid_fp_plain=undefined; blackside_state=1; rpdid=|(J~J|R~m)Jm0J'uYR)Jm~JYR; CURRENT_BLACKGAP=0; hit-dyn-v2=1; LIVE_BUVID=AUTO4316488832212386; bp_article_offset_154100711=649151673891029000; CURRENT_QUALITY=0; b_ut=5; fingerprint3=5ad9983134e17174abef4db7b440a5ab; CURRENT_FNVAL=4048; bp_video_offset_154100711=658555976981413900; PVID=1; fingerprint=cade2120d2a48e2de0dadfee319a247e; buvid_fp=19c41c196550f8268e8c94867b19f6d8; SESSDATA=da01081b%2C1667737162%2C066fd%2A51; bili_jct=e257a396d8d258b042d32a8aa9494f9e; DedeUserID=154100711; DedeUserID__ckMd5=4a5f601a3689140a; sid=ldg719nz; b_lsid=F8833C51_180AE162A19"
  94. cookies = {}
  95. for c in cookie.split(";"):
  96. b = c.split("=")
  97. cookies[b[0]] = b[1] # b0和b1分别是cookie的关键字和值,也就是将cookie转换为字典类型
  98. bilibili1 = upData(cookies)
  99. start = datetime.now().replace(minute=3, second=0, microsecond=0)
  100. # start 为当前时间,
  101. # 60*60 为代码循环周期(这里为 1h),
  102. # bilibili1.main 为回调函数,
  103. # ["owenliu", 18] 为回调函数的参数
  104. tmr1 = MyTimer(start, 60 * 60, bilibili1.main, [382193067, '巫托邦'])
  105. # tmr2 = MyTimer(start, 20 * 1, bilibili2.main, [431313625, '小蓝和他的朋友日常号'])
  106. # tmr3 = MyTimer(start, 20 * 1, bilibili3.main, [627888730, '星有野'])
  107. # tmr4 = MyTimer(start, 20 * 1, bilibili4.main, [946974, '影视飓风'])
  108. # tmr5 = MyTimer(start, 20 * 1, bilibili5.main, [163637592, '老师好我叫何同学'])
  109. tmr1.start()
  110. flag = input("\n输入\"exit\"停止执行......\n")
  111. if flag == 'exit':
  112. tmr1.cancel()

Linux环境中该auto_.py文件运行结果如下:

在这里插入图片描述

在这里插入图片描述

(4)videoDataDetection_.py文件
视频总播放数和历史累计弹幕数

在这里插入图片描述

查看网页元素和代码,发现播放数就在class为"video-data"的标签下,我们通过BeautifulSoup库对网页进行解析,通过find_all对class为"video-data"进行筛选,找到该标签,并返回一个集合

  1. #[
  2. # <div class="video-data">
  3. # <span class="view" title="总播放数1383293">138.3万播放 · </span>
  4. # <span class="dm" title="历史累计弹幕数3877">总弹幕数3877</span>
  5. # <span>2022-05-04 11:30:00</span>
  6. # <!-- -->
  7. # </div>
  8. # ]

该集合元素个数为1,且该返回类型为**<class ‘bs4.element.ResultSet’>,该集合元素第一个的类型为bs4.element.ResultSet[0]**

在这里插入图片描述

在debug中通过查看Total_playback_barrage_Set[0]的内容,发现所包含的标签就在contents属性中,而且该属性是一个list列表,在该列表下前两个元素分别是总播放数和总弹幕数,在第一个孩子Tag中,它的attrs属性值就包含了我们需要播放数。因此分别通过选择这两个值便可得到播放总数和历史弹幕总数。

在这里插入图片描述

获取到attrs的值后再通过字符串选择,保留数值即可。

  1. #视频名称
  2. responsePrototype = requests.get(url=self.homeUrl + BV)
  3. response = responsePrototype.text
  4. soup = BeautifulSoup(response, "html.parser", from_encoding="utf-8")
  5. nameResultSet = soup.find_all(attrs={'class': 'tit'}) # [<span class="tit">城市与山里的差距,真正体验过,我来告诉你!</span>]
  6. self.BVName = nameResultSet[0].string # 城市与山里的差距,真正体验过,我来告诉你!
  7. print("BVName:" + self.BVName)
  8. print(responsePrototype.cookies)
  9. #总播放数和历史评论数
  10. Total_playback_barrage_Set=soup.find_all(attrs={'class':'video-data'})
  11. list = Total_playback_barrage_Set[0].contents
  12. total_playback = list[0].attrs['title'][4:] #总播放数
  13. total_barrage = list[1].attrs['title'][7:] #总弹幕数
  14. print("总播放数:" + total_playback)
  15. print("历史累计弹幕数:" +total_barrage)
点赞、投币、收藏、转发

查看网页源码,发现数据都在class为"ops"下的div中,通过find_all方法获取筛选后的结果,分析获取相关数据进行筛选。

在这里插入图片描述

在这里插入图片描述

​ 但是因为一旦当投币数到达几万(收藏数,转发数也是一样),投币数就不进行显示了,所以这需要找api。经过f12进行筛选网络请求,但是并没有找到理想中的接口。上网查询相关信息,发现接口为:

https://api.bilibili.com/x/web-interface/view?bvid=########

(78条消息) 哔哩哔哩视频播放量、点赞量、评论、收藏、投币与转发信息定时爬虫_Mark_Lee131的博客-CSDN博客

在其后追加BV号即可,浏览器请求发现,data下的stat即为视频基本信息。

在这里插入图片描述

  • ​ “aid”: 981244086(视频aid)
  • ​ “view”: 1433541(总播放数)
  • ​ “danmaku”: 3919(弹幕库数)
  • ​ “reply”: 1790(评论数)
  • ​ “favorite”: 4909(搜藏数)
  • ​ “coin”: 21329(投币数)
  • ​ “share”: 902(分享数)
  • ​ “like”: 52819(点赞数)
  • ​ “dislike”: 0

在这里插入图片描述

在这里插入图片描述

​ 到这里发现,其实一开始就可以通过这个接口进行选择想要的数据,然后进行保存。但笔者这里前面的代码已经写好,而且也是锻炼了爬取网页内容的能力。这里笔者就选择了剩余没有爬取到的数据进行使用,即点赞数、投币数、收藏数,转发数。将request返回的值进行筛选保存。

  1. #点赞、投币、收藏、转发
  2. Like_coin_collect_forward_URL = 'https://api.bilibili.com/x/web-interface/view?bvid=' + BV
  3. response2 = requests.get(url=Like_coin_collect_forward_URL, cookies=self.cookies, headers=self.headers).json()
  4. dict = response2['data']['stat']
  5. like = dict['like'] #喜欢数
  6. coin = dict['coin'] #投币数
  7. favorite = dict['favorite'] #收藏数
  8. share = dict['share'] #分项数
  9. print('喜欢:'+ str(like))
  10. print('投币:'+ str(coin))
  11. print('收藏:'+ str(favorite))
  12. print('分享'+ str(share))

因为要监测视频数据,需要每隔一段时间自动执行一次,因此我们再次引入之前的MyTimer类,编写脚本。

videoDataDetection_.py代码:
  1. # encoding: utf-8
  2. #视频数据监测脚本:每隔一段时间查询一次视频数据:
  3. # 总播放数、历史累计弹幕数
  4. # 点赞、投币、收藏、转发
  5. import os
  6. import time
  7. import requests
  8. import csv
  9. from bs4 import BeautifulSoup
  10. from threading import Timer
  11. from datetime import datetime
  12. #该类实现爬取保存一个视频的评论信息。
  13. class videoDataVariety:
  14. #构造函数__init__,设置基础信息
  15. def __init__(self, mid, name, BV, cookies):
  16. self.mid = mid #up主的uid
  17. self.name = name #up主的账号名称
  18. self.BV = BV # BV:视频id号
  19. self.headers = {
  20. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.50'
  21. }
  22. self.cookies = cookies # 设置headers和Cookie防止反爬,还有一个fake_useragent库也可以用
  23. self.homeUrl = "https://www.bilibili.com/video/"
  24. self.BVName='(默认视频名称)'
  25. def videoData_content_get(self, BV):
  26. #获取视频基本数据,顺便设置self.BVName
  27. timeNow=time.time()
  28. timeArray = time.localtime(timeNow) # 如果有浮点型的时间戳,则可以写在括号内
  29. otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) # 评论时间,时间戳转为标准时间格式,2022-05-12 00:46:12
  30. #视频名称
  31. responsePrototype = requests.get(url=self.homeUrl + BV)
  32. response = responsePrototype.text
  33. soup = BeautifulSoup(response, "html.parser", from_encoding="utf-8")
  34. nameResultSet = soup.find_all(attrs={'class': 'tit'}) # [<span class="tit">城市与山里的差距,真正体验过,我来告诉你!</span>]
  35. self.BVName = nameResultSet[0].string # 城市与山里的差距,真正体验过,我来告诉你!]
  36. #[
  37. # <div class="video-data">
  38. # <span class="view" title="总播放数1383293">138 .3万播放 · </span>
  39. # <span class="dm" title="历史累计弹幕数3877">总弹幕数3877</span>
  40. # <span>2022-05-04 11:30:00</span>
  41. # <!-- -->
  42. # </div>
  43. # ]
  44. #总播放数和历史评论数
  45. Total_playback_barrage_Set=soup.find_all(attrs={'class':'video-data'})
  46. list = Total_playback_barrage_Set[0].contents
  47. total_playback = list[0].attrs['title'][4:] #总播放数
  48. total_barrage = list[1].attrs['title'][7:] #总弹幕数
  49. #点赞、投币、收藏、转发
  50. Like_coin_collect_forward_URL = 'https://api.bilibili.com/x/web-interface/view?bvid=' + BV
  51. response2 = requests.get(url=Like_coin_collect_forward_URL, cookies=self.cookies, headers=self.headers).json()
  52. dict = response2['data']['stat']
  53. like = dict['like'] #点赞数
  54. coin = dict['coin'] #投币数
  55. favorite = dict['favorite'] #收藏数
  56. share = dict['share'] #转发数
  57. #日志信息
  58. log_str = '时间:' + otherStyleTime + ' 视频名称:《' + self.BVName + \
  59. "》 总播放数:[" + total_playback + "] 历史累计弹幕数:[" +total_barrage + \
  60. '] 点赞:['+ str(like) +'] 投币:['+ str(coin) + '] 收藏:['+ str(favorite) + '] 转发['+ str(share)+']'
  61. print(log_str)
  62. return [timeNow, int(total_playback), int(total_barrage), like, coin, favorite, share] #[1652415252.7468505, 1488493, 3953, 53458, 21430, 4954, 918]
  63. def csv_writeIn(self, mid, name, BV, BVName, line):
  64. writeTableHead = False #默认不写表头
  65. dirname = '视频数据变化分析'
  66. begin = os.getcwd() # 保存开始文件工作路径
  67. # 如果没有该文件夹则创建一个
  68. if not os.path.isdir(dirname):
  69. os.mkdir(dirname)
  70. os.chdir(dirname) # 改变当前工作目录到指定的路径
  71. fileName = str(mid) + "-" + str(name) # up主的文件夹:uid-name
  72. if not os.path.isdir(fileName):
  73. os.mkdir(fileName)
  74. os.chdir(fileName)
  75. fileName = str(BV) + "-" + str(BVName) # BV视频的文件夹:BV-BVname
  76. if not os.path.isdir(fileName):
  77. os.mkdir(fileName)
  78. writeTableHead = True
  79. os.chdir(fileName)
  80. # 如果没有该视频文件则创建文件并写表头
  81. file = open("bilibili视频监测数据_" + BV + ".csv", "a", encoding="utf-8", newline="")
  82. f = csv.writer(file)
  83. if writeTableHead:
  84. line1 = ['时间', '总播放数', '历史累计弹幕数', '点赞', '投币', '收藏', '转发']
  85. f.writerow(line1)
  86. file.flush()
  87. f.writerow(line)
  88. file.flush()
  89. file.close()
  90. os.chdir(begin) # 恢复文件工作路径
  91. def main(self):
  92. line = self.videoData_content_get(self.BV)
  93. self.csv_writeIn(self.mid, self.name, self.BV, self.BVName, line)
  94. class MyTimer(object):
  95. def __init__(self, start_time, interval, callback_proc, args=None, kwargs=None):
  96. self.__timer = None
  97. self.__start_time = start_time
  98. self.__interval = interval
  99. self.__callback_pro = callback_proc
  100. self.__args = args if args is not None else []
  101. self.__kwargs = kwargs if kwargs is not None else {}
  102. def exec_callback(self, args=None, kwargs=None):
  103. self.__callback_pro(*self.__args, **self.__kwargs)
  104. self.__timer = Timer(self.__interval, self.exec_callback)
  105. self.__timer.start()
  106. def start(self):
  107. interval = self.__interval - (datetime.now().timestamp() - self.__start_time.timestamp())
  108. # print(interval)
  109. self.__timer = Timer(interval, self.exec_callback)
  110. self.__timer.start()
  111. def cancel(self):
  112. self.__timer.cancel()
  113. self.__timer = None
  114. if __name__ == '__main__':
  115. cookie = "buvid3=11707BB8-8181-70C7-EBE1-FB1609F40FC370555infoc; i-wanna-go-back=-1; _uuid=F4221228-EF95-B7F10-49C1-F710CAC68D109F77140infoc; buvid4=E437889C-0A9F-DEF4-C164-E3F9F456407172347-022032622-MnLxL6Vqo8K/D8N1XzXHLQ%3D%3D; nostalgia_conf=-1; buvid_fp_plain=undefined; blackside_state=1; rpdid=|(J~J|R~m)Jm0J'uYR)Jm~JYR; CURRENT_BLACKGAP=0; hit-dyn-v2=1; LIVE_BUVID=AUTO4316488832212386; bp_article_offset_154100711=649151673891029000; CURRENT_QUALITY=0; b_ut=5; fingerprint3=5ad9983134e17174abef4db7b440a5ab; SESSDATA=da01081b%2C1667737162%2C066fd%2A51; bili_jct=e257a396d8d258b042d32a8aa9494f9e; DedeUserID=154100711; DedeUserID__ckMd5=4a5f601a3689140a; sid=ldg719nz; fingerprint=19c41c196550f8268e8c94867b19f6d8; buvid_fp=19c41c196550f8268e8c94867b19f6d8; innersign=1; b_lsid=98AB9BF5_180B85A99EC; CURRENT_FNVAL=4048; bp_video_offset_154100711=659382028029919200; PVID=4"
  116. cookies = {}
  117. for c in cookie.split(";"):
  118. b = c.split("=")
  119. cookies[b[0]] = b[1]
  120. videoDataVariety = videoDataVariety(382193067, '巫托邦', 'BV1344y1u7K8', cookies)
  121. start = datetime.now().replace(minute=3, second=0, microsecond=0)
  122. # tmr1 = MyTimer(start, 10 * 1, videoDataVariety.main, []) # 每10s查询一次数据
  123. tmr1 = MyTimer(start, 60 * 30, videoDataVariety.main, []) #每半个小时查询一次数据
  124. tmr1.start()
  125. flag = input("\n输入\"exit\"停止执行......\n")
  126. if flag == 'exit':
  127. tmr1.cancel()

二、数据可视化

​ 这里除了词云图外,其他主要用了pyecharts库,这个库可以自动生成html文件,在网页中生成一个想要的图表,可交互性强,种类丰富。

快速开始 - pyecharts - A Python Echarts Plotting Library built with love.

(1)词云图

​ 评论区关键字词云图。

(79条消息) python词云图详细教程_全宇宙最最帅气的哆啦A梦小怪兽的博客-CSDN博客_python词云图

1)安装jupyter notebook

打开命令行输入:

pip install jupyter notebook
2)装必要的库
  1. wordcloud库

    打开网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

    (图片来自上述博客)

    在这里插入图片描述

    命令行进入安装包所在位置,pip安装

    pip install wordcloud-1.8.1-cp39-cp39-win_amd64.whl
    

在这里插入图片描述

  1. jieba库

    pip install jieba
    
  2. pandas库

    pip install pandas
    
3)csv获取评论列数据

​ 读取文件后根据csv操作读取列数据并进行返回。

column_content_get代码
  1. import csv
  2. def column_content_get(self,mid, Name, BV, BVName, column):
  3. #column 第几列
  4. url = f'./视频评论信息/{mid}-{Name}/{BV}-{BVName}/bilibili评论_{BV}.csv'
  5. with open(url, mode='r', encoding='utf-8') as f:
  6. reader = csv.reader(f)
  7. column = [row[column] for row in reader]
  8. return column
4)生成词云图

读取数据后,设置png格式背景图片,设置停用词(过滤词),生成图片。

在这里插入图片描述

5)词语图代码

记得加上column_content_get()代码。

  1. import wordcloud as wc
  2. from PIL import Image
  3. import numpy as np
  4. def ci_Yun_Tu(self):
  5. returnValue = self.column_content_get(self.mid, self.Name, self.BV, self.BVName, 7) #在文件中,评论所在列为第8列,下标为7
  6. text = " ".join(returnValue)
  7. # 设置背景形状图片
  8. mask = np.array(Image.open("./fivestar.png"))
  9. # 设置停用词
  10. stopwords = set()
  11. content = [line.strip() for line in open('./stopwords.txt', 'r',enconding='utf-8').readlines()]
  12. stopwords.update(content)
  13. # 画图
  14. word_cloud = wc.WordCloud(scale=10, font_path="C:\Windows\Fonts\msyh.ttc", mask=mask, stopwords=stopwords,
  15. background_color="white") # 大小、字体、背景形状停用词、背景颜色
  16. word_cloud.generate(text)
  17. word_cloud.to_file("词云图-{}-{}.png".format(self.Name, self.BVName)) # 绘制到一个图片里
(2)饼图(环状图)

(79条消息) 【Pyecharts-学习笔记系列之Pie(三)】_浪花卷起千堆雪的博客-CSDN博客

Pie - Pie_radius - Document (pyecharts.org)

1)用户性别分类饼状图

​ 视频评论区用户性别分类饼状图。

​ 用column_content_get()方法读取到视频评论信息中下标为2的数据,也就是视频的评论区中用户的性别分类情况,其中有男、女、保密三种,将读取到的数据进行统计并放置inner_data_pair变量中,通过调用Pie()的方法并设置好环状图的半径,颜色,数据表的标题,图例位置等等。最后进行输出html文件。

​ 在练习过程中,发现有的视频名称如果末尾有 (三个英文句号)的话,在视频评论信息视频数据变化分析文件保存过程中(即commentData类和videoDataDetection_.py文件),Windows会将这三个标点符号进行忽略掉,比如何同学的这个视频。因此,我们修改了之前的代码,直接在给BVName赋值的时候,把“《》”加上即可。这里笔者没有再返回去修改本文之前那两个文件的代码内容,如有需要请自行修改。

在这里插入图片描述

在这里插入图片描述

环状图结果示意图:

在这里插入图片描述

2)饼图代码

记得加上column_content_get()代码

  1. from pyecharts import options as opts
  2. from pyecharts.charts import Pie
  3. #视频评论区用户性别分类饼状图
  4. def bing_tu(self):
  5. series_nameValue = self.BVName + '评论区用户' #鼠标悬浮在图上的提示文字
  6. sexColumn = self.column_content_get(self.mid, self.Name, self.BV, self.BVName, 2)
  7. maleNum = 0
  8. femaleNum = 0
  9. unknownNum = 0
  10. for i in sexColumn:
  11. if (i == '男'): maleNum += 1
  12. elif (i == '女'): femaleNum += 1
  13. elif (i == '保密'): unknownNum += 1
  14. inner_x_data = ["男", "女", "保密"] #分类
  15. inner_y_data = [maleNum, femaleNum, unknownNum] #分类对应的值
  16. inner_data_pair = [list(z) for z in zip(inner_x_data, inner_y_data)] #值的“合集”
  17. outUrl = './输出库/' + str(self.mid) + '-' + self.Name + '-' + self.BV + '-' + self.BVName #输出路径
  18. c = (
  19. Pie()
  20. .add(
  21. series_nameValue,
  22. inner_data_pair,
  23. radius=["50%", "75%"], # 调整半径
  24. )
  25. .set_colors(["#65a8d8", "#f8a3cf", "#9da5ad"]) #颜色
  26. .set_global_opts(
  27. title_opts=opts.TitleOpts(title="性别构成情况"), #标题
  28. legend_opts=opts.LegendOpts(orient="vertical", pos_top="10%", pos_left="88%"),# 图例设置
  29. )
  30. .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")) # 设置标签
  31. .render(outUrl + ".html") #保存输出
  32. )
(3)柱状图
1)评论区点赞TOP20柱状图

​ 视频评论区点赞top20柱状图。

​ 使用pandas库和和饼图同样的pyecharts库,Pandas的名称来自于面板数据(panel data),基于NumPy构建,提供了高级数据结构数据操作工具

​ 读取好csv文件后通过DataFrame设置好源数据,删除空值与重复值,然后根据文件中点赞数那一列降序排序,取前多少行,也就是点赞数最多的几条评论数据。在pyecharts中设置好下x轴、y轴的数据,以及标题,保存导出即可。

​ 示意图如下:

在这里插入图片描述

2)代码
  1. import csv
  2. from pyecharts import options as opts
  3. from pyecharts.charts import Bar
  4. import pandas as pd
  1. #视频评论区点赞top柱状图
  2. def zhu_zhuang_tu(self, mid, Name, BV, BVName):
  3. TopNum = 20 # 点赞前20
  4. series_nameValue = self.BVName + '点赞TOP' + str(TopNum)
  5. inUrl = './视频评论信息/' + str(mid) + '-' + Name + '/' + BV + '-' + BVName + '/bilibili评论_' + BV + '.csv' # 视频评论文件所在路径
  6. outUrl = './输出库/' + str(mid) + '-' + Name + '-' + BV + '-' + series_nameValue + '柱状图' # 输出路径
  7. df = pd.DataFrame(pd.read_csv(inUrl))
  8. df.dropna() #删除空值
  9. df.drop_duplicates() #删除重复值
  10. df1 = df.sort_values(by=['点赞数'], ascending=False).head(TopNum) #根据文件里的'点赞数'列降序排序,取前TopNum行
  11. c = (
  12. Bar()
  13. .add_xaxis(
  14. df1['评论内容'].to_list() # x轴是评论内容
  15. )
  16. .add_yaxis(
  17. "点赞数",
  18. df1["点赞数"].to_list(),
  19. color='#87cff1'
  20. )
  21. .set_global_opts(
  22. title_opts=opts.TitleOpts(title = series_nameValue), #设置标题
  23. datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
  24. )
  25. .render(outUrl + ".html") #保存输出
  26. )
  27. c
(4)漏斗图
1)用户等级分布漏斗图

​ 视频评论区用户等级分布漏斗图。

​ 读取视频评论区数据后,通过pandas库的value_counts方法统计词频,以降序排列,再通过pyecharts库进行绘制图形。

示意图:

在这里插入图片描述

2)代码
  1. from pyecharts import options as opts
  2. from pyecharts.charts import Funnel
  3. import pandas as pd
  4. #视频评论区用户等级分布漏斗图
  5. def lou_dou_tu(self, mid, Name, BV, BVName):
  6. series_nameValue = self.BVName + '评论区用户等级分布'
  7. inUrl = './视频评论信息/' + str(mid) + '-' + Name + '/' + BV + '-' + BVName + '/bilibili评论_' + BV + '.csv' # 视频评论文件所在路径
  8. outUrl = './输出库/' + str(mid) + '-' + Name + '-' + BV + '-' + series_nameValue + '漏斗图' # 输出路径
  9. df = pd.DataFrame(pd.read_csv(inUrl))
  10. df.dropna() # 删除空值
  11. df.drop_duplicates() # 删除重复值
  12. grade = df['等级'].value_counts().sort_index(ascending=False) #统计词频,降序
  13. gradeNumList = grade.to_list() #等级数量 #[77, 160, 47, 16, 6]
  14. gradeList = grade.index # 等级# Int64Index([6, 5, 4, 3, 2], dtype='int64')
  15. c = (
  16. Funnel()
  17. .add(
  18. "用户等级",
  19. [list(z) for z in zip(gradeList, gradeNumList)],
  20. label_opts=opts.LabelOpts(position="inside"),
  21. )
  22. .set_colors(["#f9b4ab", "#fdebd3", "#264e70", '#679186', '#bbd4ce', '#ebf1f4']) # 颜色
  23. .set_global_opts(title_opts=opts.TitleOpts(title="Funnel-Label(inside)"))
  24. .render(outUrl + ".html") #保存输出
  25. )
(5)折线图

Line - Stacked_line_chart - Document (pyecharts.org)

(80条消息) Echarts|Stacked Line Chart(折线图堆叠)Y轴数据不正确问题_craftsman2020的博客-CSDN博客_echarts 折线图stack

1)UP主数据变化折线图

​ 96h(自定义h)内up主数据变化折线图。

​ 根据之前所爬取的文件信息,有粉丝数、关注数、点赞数、播放数、和阅读数可供使用。时间为时间戳格式,截止目前,笔者这里的数据是之前放置在树莓派爬取到的数据,总共是96条信息,也就是4天的信息。因为数据较少,时间跨度较低,而不同种类数据值差异较大,所以所得的折线图可能没有直观给出变化趋势。

​ 在该方法中我们依旧用pandas库读取数据,再通过pyecharts库进行绘制图形。筛选列数据后分别加入图例中。

在这里插入图片描述

​ 示意图如下:

在这里插入图片描述

2)代码
  1. from pyecharts.charts import Line
  2. import pandas as pd
  3. import time
  4. # 24h up主粉丝变化折线图
  5. def zhe_xian_tu(self, mid, Name):
  6. interval = 96 # 因为up主粉丝数据是没1h获取一次的,所以这里显示24小时up主的粉丝情况。
  7. titleName = str(mid) + '-' + Name + '-' + str(interval) + 'h基本数据变化'
  8. inUrl = './up主信息/' + str(mid) + '-' + Name + '/' + str(mid) + '-' + Name + '.csv' #up主信息文件所在路径
  9. outUrl = './输出库/' + titleName + '折线图' # 输出路径
  10. df = pd.DataFrame(pd.read_csv(inUrl))
  11. df.dropna() # 删除空值
  12. df1 = df.tail(interval)
  13. x_data = df1['时间']
  14. y_data_fans_Num = df1['粉丝数']
  15. y_data_follow_Num = df1['关注数']
  16. y_data_like_Num = df1['点赞数']
  17. y_data_play_Num = df1['播放数']
  18. y_data_read_Num = df1['阅读数']
  19. xx_data = [] #2022年5月15日 10:09:22格式的时间作为x轴
  20. for t in x_data:
  21. timeArray = time.localtime(t)
  22. otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) # 评论时间,时间戳转为标准时间格式,2022-05-05 19:15:14
  23. xx_data.append(otherStyleTime)
  24. (
  25. Line()
  26. .add_xaxis(xaxis_data=xx_data)
  27. .add_yaxis(
  28. series_name="粉丝数",
  29. y_axis=y_data_fans_Num,
  30. label_opts=opts.LabelOpts(is_show=False),
  31. )
  32. .add_yaxis(
  33. series_name="关注数",
  34. y_axis=y_data_follow_Num,
  35. label_opts=opts.LabelOpts(is_show=False),
  36. )
  37. .add_yaxis(
  38. series_name="点赞数",
  39. y_axis=y_data_like_Num,
  40. label_opts=opts.LabelOpts(is_show=False),
  41. )
  42. .add_yaxis(
  43. series_name="播放数",
  44. y_axis=y_data_play_Num,
  45. label_opts=opts.LabelOpts(is_show=False),
  46. )
  47. .add_yaxis(
  48. series_name="阅读数",
  49. y_axis=y_data_read_Num,
  50. label_opts=opts.LabelOpts(is_show=False),
  51. )
  52. .set_global_opts(
  53. title_opts=opts.TitleOpts(title=titleName),
  54. tooltip_opts=opts.TooltipOpts(trigger="axis"),
  55. yaxis_opts=opts.AxisOpts(
  56. type_="value",
  57. axistick_opts=opts.AxisTickOpts(is_show=True),
  58. splitline_opts=opts.SplitLineOpts(is_show=True),
  59. ),
  60. xaxis_opts=opts.AxisOpts(type_="category", boundary_gap=False),
  61. legend_opts=opts.LegendOpts(orient="vertical", pos_top="10%", pos_left="91%"), # 图例设置
  62. )
  63. .render(outUrl + ".html") #保存输出
  64. )
(6)平行坐标系
1)各视频数据平行坐标系图

同一个up,不同视频总播放数、历史累计弹幕数、点赞、投币、收藏、转发的可视化。

Document (pyecharts.org)

pyecharts 设置地图大小错误 - 简书 (jianshu.com)

​ 因为需要横评不同视频的数据,因此我们重新定义一个类differentVideoDataEvaluation,并且在该类下定义一个新方法ping_xing_zuo_biao_xi(),该方法通过接受一个list集合,其中就是同一个up不同视频的数据。例如

  1. data = [
  2. [1760078, 4185, 57384, 22057, 5242, 979, 'BV1344y1u7K8\n《为了不洗碗,我把碗筷\n吃了!》'],
  3. [137866, 968, 27086, 20657, 3424, 392, 'BV1WT4y1B7Df\n《为了打嗝,专门去盖了\n个打阁!》'],
  4. [125085, 316, 23713, 10821, 2001, 190, 'BV1NT4y1k7qU\n《【美食杂交技术】油条\n与薯条的完美结合体!》'],
  5. [400429, 1649, 76976, 72977, 9390, 766, 'BV11r4y1J7cH\n《不搞钱,就搞笑!》']
  6. ]

​ 那么如何获取数据呢?我们调用之前写的**videoData_content_get()**方法,查看该方法,

  1. def videoData_content_get(self, BV):
  2. ......此处代码省略
  3. return [timeNow, int(total_playback), int(total_barrage), like, coin, favorite, share] #[1652415252.7468505, 1488493, 3953, 53458, 21430, 4954, 918]

​ 发现返回的是一个列表,包含了爬取时间、总播放数、历史累计弹幕数、点赞数、投币数、收藏数和分享数。

​ 我们在此数据上新添加BV的信息和BVName的信息就可以了,并把不同的视频的list写在一个list里面,将其传给**ping_xing_zuo_biao_xi()**方法就好了。

  1. #获取数据列表
  2. videoDataVariety1 = videoDataVariety(382193067, '巫托邦', 'BV1344y1u7K8', cookies) #初始化
  3. datalist1 = videoDataVariety1.videoData_content_get(videoDataVariety1.BV)# 调用之前写的方法返回
  4. videoDataVariety2 = videoDataVariety(382193067, '巫托邦', 'BV1WT4y1B7Df', cookies)
  5. datalist2 = videoDataVariety2.videoData_content_get(videoDataVariety2.BV)
  6. videoDataVariety3 = videoDataVariety(382193067, '巫托邦', 'BV1NT4y1k7qU', cookies)
  7. datalist3 = videoDataVariety3.videoData_content_get(videoDataVariety3.BV)
  8. videoDataVariety4 = videoDataVariety(382193067, '巫托邦', 'BV11r4y1J7cH', cookies)
  9. datalist4 = videoDataVariety4.videoData_content_get(videoDataVariety4.BV)
  10. # 此处添加BV和BVName
  11. datalist1.append(videoDataVariety1.BV)
  12. datalist1.append(videoDataVariety1.BVName)
  13. datalist2.append(videoDataVariety2.BV)
  14. datalist2.append(videoDataVariety2.BVName)
  15. datalist3.append(videoDataVariety3.BV)
  16. datalist3.append(videoDataVariety3.BVName)
  17. datalist4.append(videoDataVariety4.BV)
  18. datalist4.append(videoDataVariety4.BVName)
  19. dataList = [
  20. datalist1,
  21. datalist2,
  22. datalist3,
  23. datalist4
  24. ]

​ 在ping_xing_zuo_biao_xi()方法中,我们将list下中第一条视频信息中的第一列的时间戳设置为该平行坐标系的生成时间,并将其赋值给timeArray,设置好titleName和输出路径,通过pyecharts库进行绘制平行坐标系图即可。

​ 注意:由于BV和BVName组成的字符串太长,如果不进行换行,在最终输出的图标中最后一列也就是BV-BVName的坐标轴上的数据显示不全,因此我们需要在合理的位置上添加’\n’

  1. data = []
  2. different_BV_length = len(videoData_content_get_Return_newListList) #总共有几个视频的横评
  3. BVNameList = [] #BV-BVName构成的list
  4. for i in range(different_BV_length):
  5. BVNameLength = len(videoData_content_get_Return_newListList[i][8])
  6. v1 = videoData_content_get_Return_newListList[i][8]
  7. if BVNameLength > 22:
  8. v1 = videoData_content_get_Return_newListList[i][8][0:11] + '\n' + \
  9. videoData_content_get_Return_newListList[i][8][11:22] + '\n' + \
  10. videoData_content_get_Return_newListList[i][8][22:]
  11. elif BVNameLength> 11:
  12. v1= videoData_content_get_Return_newListList[i][8][0:11] + '\n' + \
  13. videoData_content_get_Return_newListList[i][8][11:]
  14. str = videoData_content_get_Return_newListList[i][7] + '\n' + v1
  15. BVNameList.append(str)
  16. data.append([])
  17. data[i].append(videoData_content_get_Return_newListList[i][1]) #总播放数
  18. data[i].append(videoData_content_get_Return_newListList[i][2]) #历史累计弹幕数
  19. data[i].append(videoData_content_get_Return_newListList[i][3]) #点赞
  20. data[i].append(videoData_content_get_Return_newListList[i][4]) #投币
  21. data[i].append(videoData_content_get_Return_newListList[i][5]) #收藏
  22. data[i].append(videoData_content_get_Return_newListList[i][6]) #分享
  23. data[i].append(str) #BV-BVName

示意图如下:

在这里插入图片描述

2)代码
  1. from bilibiliVideoDataAnalysis.work import videoDataDetection_ #导入之前自己写的模块
  2. from pyecharts import options as opts
  3. from pyecharts.charts import Parallel
  4. import time
  5. #可视化(平行坐标系)
  6. class differentVideoDataEvaluation:
  7. #不同视频的评测
  8. # 平行坐标系
  9. # 同一个up,不同视频总播放数、历史累计弹幕数、点赞、投币、收藏、转发的可视化
  10. def ping_xing_zuo_biao_xi(self, upname, videoData_content_get_Return_newListList):
  11. # videoData_content_get_ReturnListList:
  12. # 该参数是videoDataDetection_.py文件中videoDataVariety类videoData_content_get()方法的不同视频返回数据集合,
  13. # 并且新新添加了两列:BV、BVName
  14. # 例如[
  15. # [1652599039.1057296, 1760078, 4185, 57384, 22057, 5242, 979, 'BV1344y1u7K8', '《为了不洗碗,我把碗筷吃了!》'],
  16. # [1652599039.8925633, 137866, 968, 27086, 20657, 3424, 392, 'BV1WT4y1B7Df', '《为了打嗝,专门去盖了个打阁!》'],
  17. # [1652599041.0497084, 125085, 316, 23713, 10821, 2001, 190, 'BV1NT4y1k7qU', '《【美食杂交技术】油条与薯条的完美结合体!》'],
  18. # [1652599042.146411, 400429, 1649, 76976, 72977, 9390, 766, 'BV11r4y1J7cH', '《不搞钱,就搞笑!》']
  19. # ]
  20. data = []
  21. different_BV_length = len(videoData_content_get_Return_newListList) #总共有几个视频的横评
  22. BVNameList = [] #BV-BVName构成的list
  23. for i in range(different_BV_length):
  24. BVNameLength = len(videoData_content_get_Return_newListList[i][8])
  25. v1 = videoData_content_get_Return_newListList[i][8]
  26. if BVNameLength > 22:
  27. v1 = videoData_content_get_Return_newListList[i][8][0:11] + '\n' + \
  28. videoData_content_get_Return_newListList[i][8][11:22] + '\n' + \
  29. videoData_content_get_Return_newListList[i][8][22:]
  30. elif BVNameLength> 11:
  31. v1= videoData_content_get_Return_newListList[i][8][0:11] + '\n' + \
  32. videoData_content_get_Return_newListList[i][8][11:]
  33. str = videoData_content_get_Return_newListList[i][7] + '\n' + v1
  34. BVNameList.append(str)
  35. data.append([])
  36. data[i].append(videoData_content_get_Return_newListList[i][1]) #总播放数
  37. data[i].append(videoData_content_get_Return_newListList[i][2]) #历史累计弹幕数
  38. data[i].append(videoData_content_get_Return_newListList[i][3]) #点赞
  39. data[i].append(videoData_content_get_Return_newListList[i][4]) #投币
  40. data[i].append(videoData_content_get_Return_newListList[i][5]) #收藏
  41. data[i].append(videoData_content_get_Return_newListList[i][6]) #分享
  42. data[i].append(str) #BV-BVName
  43. timeArray = time.localtime(videoData_content_get_Return_newListList[0][0]) #获取横评视频时间
  44. genertTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) # 生成时间,时间戳转为标准时间格式,2022-05-05 19:15:14
  45. titleName = genertTime + '-' + upname + "不同视频横评"
  46. outUrl = './输出库/' + upname + '-不同视频横评平行坐标图' # 输出路径
  47. c = (
  48. Parallel(init_opts=opts.InitOpts(width="1200px", height="700px",page_title=titleName))
  49. .add_schema(
  50. [
  51. opts.ParallelAxisOpts(dim=0, name='总播放数'),
  52. opts.ParallelAxisOpts(dim=1, name='历史累计弹幕数'),
  53. opts.ParallelAxisOpts(dim=2, name='点赞'),
  54. opts.ParallelAxisOpts(dim=3, name="投币"),
  55. opts.ParallelAxisOpts(dim=4, name="收藏"),
  56. opts.ParallelAxisOpts(dim=5, name="转发"),
  57. opts.ParallelAxisOpts(
  58. dim=6,
  59. name="BV-视频名称",
  60. type_="category",
  61. data=BVNameList,
  62. ),
  63. ]
  64. )
  65. .add(
  66. upname,
  67. data,
  68. )
  69. .set_global_opts(
  70. title_opts=opts.TitleOpts(title = titleName),
  71. ) #设置全局配置项
  72. .render(outUrl + ".html") #保存输出
  73. )
  74. c
(7)visualization文件代码
  1. #可视化
  2. import csv
  3. import os
  4. import wordcloud as wc
  5. from PIL import Image
  6. import numpy as np
  7. from pyecharts import options as opts
  8. from pyecharts.charts import Bar, Pie, Funnel, Line
  9. import pandas as pd
  10. import time
  11. from pyecharts.charts import Parallel
  12. from bilibiliVideoDataAnalysis.work.videoDataDetection_ import videoDataVariety
  13. #可视化(词云图、饼图、柱状图、漏斗图、折线图)
  14. class visualization:
  15. def __init__(self, mid, Name, BV, BVName):
  16. self.mid = mid
  17. self.Name = Name
  18. self.BV = BV
  19. self.BVName = BVName
  20. # 评论词云图
  21. def ci_Yun_Tu(self):
  22. dirname = '输出库'
  23. begin = os.getcwd() # 保存开始文件工作路径
  24. returnValue = self.column_content_get(self.mid, self.Name, self.BV, self.BVName, 7) #在文件中,评论所在列为第8列,下标为7
  25. text = " ".join(returnValue)
  26. # 设置背景形状图片
  27. mask = np.array(Image.open("./素材库/fivestar.png"))
  28. # 设置停用词
  29. stopwords = set()
  30. content = [line.strip() for line in open('./素材库/stopwords.txt', 'r',encoding='utf-8').readlines()]
  31. stopwords.update(content)
  32. # 画图
  33. word_cloud = wc.WordCloud(scale=10, font_path="C:/Windows/Fonts/msyh.ttc", mask=mask, stopwords=stopwords,
  34. background_color="white") # 大小、字体、背景形状停用词、背景颜色
  35. word_cloud.generate(text)
  36. # 如果没有该文件夹则创建一个
  37. if not os.path.isdir(dirname):
  38. os.mkdir(dirname)
  39. os.chdir(dirname) # 改变当前工作目录到指定的路径
  40. word_cloud.to_file("词云图-{}-{}.png".format(self.Name, self.BVName)) # 绘制到一个图片里
  41. os.chdir(begin) # 恢复文件工作路径
  42. #视频评论区用户性别分类饼状图
  43. def bing_tu(self):
  44. series_nameValue = self.BVName + '评论区用户' #鼠标悬浮在图上的提示文字
  45. sexColumn = self.column_content_get(self.mid, self.Name, self.BV, self.BVName, 2)
  46. maleNum = 0
  47. femaleNum = 0
  48. unknownNum = 0
  49. for i in sexColumn:
  50. if (i == '男'): maleNum += 1
  51. elif (i == '女'): femaleNum += 1
  52. elif (i == '保密'): unknownNum += 1
  53. inner_x_data = ["男", "女", "保密"] #分类
  54. inner_y_data = [maleNum, femaleNum, unknownNum] #分类对应的值
  55. inner_data_pair = [list(z) for z in zip(inner_x_data, inner_y_data)] #值的“合集”
  56. outUrl = './输出库/' + str(self.mid) + '-' + self.Name + '-' + self.BV + '-' + series_nameValue + '环状图' #输出路径
  57. c = (
  58. Pie()
  59. .add(
  60. series_nameValue,
  61. inner_data_pair,
  62. radius=["50%", "75%"], # 调整半径
  63. )
  64. .set_colors(["#65a8d8", "#f8a3cf", "#9da5ad"]) #颜色
  65. .set_global_opts(
  66. title_opts=opts.TitleOpts(title="性别构成情况"), #标题
  67. legend_opts=opts.LegendOpts(orient="vertical", pos_top="10%", pos_left="91%"),# 图例设置
  68. )
  69. .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")) # 设置标签
  70. .render(outUrl + ".html") #保存输出
  71. )
  72. #视频评论区点赞top柱状图
  73. def zhu_zhuang_tu(self, mid, Name, BV, BVName):
  74. TopNum = 20 # 点赞前20
  75. series_nameValue = self.BVName + '点赞TOP' + str(TopNum)
  76. inUrl = './视频评论信息/' + str(mid) + '-' + Name + '/' + BV + '-' + BVName + '/bilibili评论_' + BV + '.csv' # 视频评论文件所在路径
  77. outUrl = './输出库/' + str(mid) + '-' + Name + '-' + BV + '-' + series_nameValue + '柱状图' # 输出路径
  78. df = pd.DataFrame(pd.read_csv(inUrl))
  79. df.dropna() #删除空值
  80. df.drop_duplicates() #删除重复值
  81. df1 = df.sort_values(by=['点赞数'], ascending=False).head(TopNum) #根据文件里的'点赞数'列降序排序,取前TopNum行
  82. c = (
  83. Bar()
  84. .add_xaxis(
  85. df1['评论内容'].to_list() # x轴是评论内容
  86. )
  87. .add_yaxis(
  88. "点赞数",
  89. df1["点赞数"].to_list(),
  90. color='#87cff1'
  91. )
  92. .set_global_opts(
  93. title_opts=opts.TitleOpts(title = series_nameValue), #设置标题
  94. datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
  95. legend_opts=opts.LegendOpts(orient="vertical", pos_top="10%", pos_left="91%"), # 图例设置
  96. )
  97. .render(outUrl + ".html") #保存输出
  98. )
  99. c
  100. #视频评论区用户等级分布漏斗图
  101. def lou_dou_tu(self, mid, Name, BV, BVName):
  102. series_nameValue = BVName + '评论区用户等级分布'
  103. inUrl = './视频评论信息/' + str(mid) + '-' + Name + '/' + BV + '-' + BVName + '/bilibili评论_' + BV + '.csv' # 视频评论文件所在路径
  104. outUrl = './输出库/' + str(mid) + '-' + Name + '-' + BV + '-' + series_nameValue + '漏斗图' # 输出路径
  105. df = pd.DataFrame(pd.read_csv(inUrl))
  106. df.dropna() # 删除空值
  107. df.drop_duplicates() # 删除重复值
  108. grade = df['等级'].value_counts().sort_index(ascending=False) #统计词频,降序
  109. gradeNumList = grade.to_list() #等级数量 #[77, 160, 47, 16, 6]
  110. gradeList = grade.index # 等级# Int64Index([6, 5, 4, 3, 2], dtype='int64')
  111. c = (
  112. Funnel()
  113. .add(
  114. "用户等级",
  115. [list(z) for z in zip(gradeList, gradeNumList)],
  116. label_opts=opts.LabelOpts(position="inside"),
  117. )
  118. .set_colors(["#f9b4ab", "#fdebd3", "#264e70", '#679186', '#bbd4ce', '#ebf1f4']) # 颜色
  119. .set_global_opts(
  120. title_opts=opts.TitleOpts(title=series_nameValue),
  121. legend_opts=opts.LegendOpts(orient="vertical", pos_top="10%", pos_left="91%"), # 图例设置
  122. )
  123. .render(outUrl + ".html") #保存输出
  124. )
  125. # 96h(自定义h)内up主本数据变化折线图
  126. def zhe_xian_tu(self, mid, Name):
  127. interval = 96 # 因为up主粉丝数据是没1h获取一次的,所以这里显示24小时up主的粉丝情况。
  128. titleName = str(mid) + '-' + Name + '-' + str(interval) + 'h基本数据变化'
  129. inUrl = './up主信息/' + str(mid) + '-' + Name + '/' + str(mid) + '-' + Name + '.csv' #up主信息文件所在路径
  130. outUrl = './输出库/' + titleName + '折线图' # 输出路径
  131. df = pd.DataFrame(pd.read_csv(inUrl))
  132. df.dropna() # 删除空值
  133. df1 = df.tail(interval)
  134. x_data = df1['时间']
  135. y_data_fans_Num = df1['粉丝数']
  136. y_data_follow_Num = df1['关注数']
  137. y_data_like_Num = df1['点赞数']
  138. y_data_play_Num = df1['播放数']
  139. y_data_read_Num = df1['阅读数']
  140. xx_data = [] #2022年5月15日 10:09:22格式的时间作为x轴
  141. for t in x_data:
  142. timeArray = time.localtime(t)
  143. otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) # 评论时间,时间戳转为标准时间格式,2022-05-05 19:15:14
  144. xx_data.append(otherStyleTime)
  145. (
  146. Line()
  147. .add_xaxis(xaxis_data=xx_data)
  148. .add_yaxis(
  149. series_name="粉丝数",
  150. y_axis=y_data_fans_Num,
  151. label_opts=opts.LabelOpts(is_show=False),
  152. )
  153. .add_yaxis(
  154. series_name="关注数",
  155. y_axis=y_data_follow_Num,
  156. label_opts=opts.LabelOpts(is_show=False),
  157. )
  158. .add_yaxis(
  159. series_name="点赞数",
  160. y_axis=y_data_like_Num,
  161. label_opts=opts.LabelOpts(is_show=False),
  162. )
  163. .add_yaxis(
  164. series_name="播放数",
  165. y_axis=y_data_play_Num,
  166. label_opts=opts.LabelOpts(is_show=False),
  167. )
  168. .add_yaxis(
  169. series_name="阅读数",
  170. y_axis=y_data_read_Num,
  171. label_opts=opts.LabelOpts(is_show=False),
  172. )
  173. .set_global_opts(
  174. title_opts=opts.TitleOpts(title=titleName),
  175. tooltip_opts=opts.TooltipOpts(trigger="axis"),
  176. yaxis_opts=opts.AxisOpts(
  177. type_="value",
  178. axistick_opts=opts.AxisTickOpts(is_show=True),
  179. splitline_opts=opts.SplitLineOpts(is_show=True),
  180. ),
  181. xaxis_opts=opts.AxisOpts(type_="category", boundary_gap=False),
  182. legend_opts=opts.LegendOpts(orient="vertical", pos_top="10%", pos_left="91%"), # 图例设置
  183. )
  184. .render(outUrl + ".html") #保存输出
  185. )
  186. #获取csv列数据
  187. def column_content_get(self,mid, Name, BV, BVName, column):
  188. #column 第几列
  189. url = f'./视频评论信息/{mid}-{Name}/{BV}-{BVName}/bilibili评论_{BV}.csv'
  190. with open(url, mode='r', encoding='utf-8') as f:
  191. reader = csv.reader(f)
  192. column = [row[column] for row in reader]
  193. return column
  194. def main(self):
  195. self.ci_Yun_Tu()
  196. self.bing_tu()
  197. self.zhu_zhuang_tu(self.mid, self.Name, self.BV, self.BVName)
  198. self.lou_dou_tu(self.mid, self.Name, self.BV, self.BVName)
  199. self.zhe_xian_tu(self.mid, self.Name )
  200. pass
  201. #可视化(平行坐标系)
  202. class differentVideoDataEvaluation:
  203. #不同视频的评测
  204. # 平行坐标系
  205. # 同一个up,不同视频总播放数、历史累计弹幕数、点赞、投币、收藏、转发的可视化
  206. def ping_xing_zuo_biao_xi(self, upname, videoData_content_get_Return_newListList):
  207. # videoData_content_get_ReturnListList:
  208. # 该参数是videoDataDetection_.py文件中videoDataVariety类videoData_content_get()方法的不同视频返回数据集合,
  209. # 并且新新添加了两列:BV、BVName
  210. # 例如[
  211. # [1652599039.1057296, 1760078, 4185, 57384, 22057, 5242, 979, 'BV1344y1u7K8', '《为了不洗碗,我把碗筷吃了!》'],
  212. # [1652599039.8925633, 137866, 968, 27086, 20657, 3424, 392, 'BV1WT4y1B7Df', '《为了打嗝,专门去盖了个打阁!》'],
  213. # [1652599041.0497084, 125085, 316, 23713, 10821, 2001, 190, 'BV1NT4y1k7qU', '《【美食杂交技术】油条与薯条的完美结合体!》'],
  214. # [1652599042.146411, 400429, 1649, 76976, 72977, 9390, 766, 'BV11r4y1J7cH', '《不搞钱,就搞笑!》']
  215. # ]
  216. data = []
  217. different_BV_length = len(videoData_content_get_Return_newListList) #总共有几个视频的横评
  218. BVNameList = [] #BV-BVName构成的list
  219. for i in range(different_BV_length):
  220. BVNameLength = len(videoData_content_get_Return_newListList[i][8])
  221. v1 = videoData_content_get_Return_newListList[i][8]
  222. if BVNameLength > 22:
  223. v1 = videoData_content_get_Return_newListList[i][8][0:11] + '\n' + \
  224. videoData_content_get_Return_newListList[i][8][11:22] + '\n' + \
  225. videoData_content_get_Return_newListList[i][8][22:]
  226. elif BVNameLength> 11:
  227. v1= videoData_content_get_Return_newListList[i][8][0:11] + '\n' + \
  228. videoData_content_get_Return_newListList[i][8][11:]
  229. str = videoData_content_get_Return_newListList[i][7] + '\n' + v1
  230. BVNameList.append(str)
  231. data.append([])
  232. data[i].append(videoData_content_get_Return_newListList[i][1]) #总播放数
  233. data[i].append(videoData_content_get_Return_newListList[i][2]) #历史累计弹幕数
  234. data[i].append(videoData_content_get_Return_newListList[i][3]) #点赞
  235. data[i].append(videoData_content_get_Return_newListList[i][4]) #投币
  236. data[i].append(videoData_content_get_Return_newListList[i][5]) #收藏
  237. data[i].append(videoData_content_get_Return_newListList[i][6]) #分享
  238. data[i].append(str) #BV-BVName
  239. timeArray = time.localtime(videoData_content_get_Return_newListList[0][0]) #获取横评视频时间
  240. genertTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) # 生成时间,时间戳转为标准时间格式,2022-05-05 19:15:14
  241. titleName = genertTime + '-' + upname + "不同视频横评"
  242. outUrl = './输出库/' + upname + '-不同视频横评平行坐标图' # 输出路径
  243. c = (
  244. Parallel(init_opts=opts.InitOpts(width="1200px", height="700px",page_title=titleName))
  245. .add_schema(
  246. [
  247. opts.ParallelAxisOpts(dim=0, name='总播放数'),
  248. opts.ParallelAxisOpts(dim=1, name='历史累计弹幕数'),
  249. opts.ParallelAxisOpts(dim=2, name='点赞'),
  250. opts.ParallelAxisOpts(dim=3, name="投币"),
  251. opts.ParallelAxisOpts(dim=4, name="收藏"),
  252. opts.ParallelAxisOpts(dim=5, name="转发"),
  253. opts.ParallelAxisOpts(
  254. dim=6,
  255. name="BV-视频名称",
  256. type_="category",
  257. data=BVNameList,
  258. ),
  259. ]
  260. )
  261. .add(
  262. upname,
  263. data,
  264. )
  265. .set_global_opts(
  266. title_opts=opts.TitleOpts(title = titleName),
  267. ) #设置全局配置项
  268. .render(outUrl + ".html") #保存输出
  269. )
  270. c
  271. if __name__ == '__main__':
  272. cookie = "buvid3=11707BB8-8181-70C7-EBE1-FB1609F40FC370555infoc; i-wanna-go-back=-1; _uuid=F4221228-EF95-B7F10-49C1-F710CAC68D109F77140infoc; buvid4=E437889C-0A9F-DEF4-C164-E3F9F456407172347-022032622-MnLxL6Vqo8K/D8N1XzXHLQ%3D%3D; nostalgia_conf=-1; buvid_fp_plain=undefined; blackside_state=1; rpdid=|(J~J|R~m)Jm0J'uYR)Jm~JYR; CURRENT_BLACKGAP=0; hit-dyn-v2=1; LIVE_BUVID=AUTO4316488832212386; CURRENT_QUALITY=0; b_ut=5; fingerprint3=5ad9983134e17174abef4db7b440a5ab; SESSDATA=da01081b%2C1667737162%2C066fd%2A51; bili_jct=e257a396d8d258b042d32a8aa9494f9e; DedeUserID=154100711; DedeUserID__ckMd5=4a5f601a3689140a; sid=ldg719nz; fingerprint=19c41c196550f8268e8c94867b19f6d8; buvid_fp=19c41c196550f8268e8c94867b19f6d8; CURRENT_FNVAL=4048; PVID=1; bp_video_offset_154100711=660026573772030000; b_lsid=51210F6A10_180C576256C; b_timer=%7B%22ffp%22%3A%7B%22333.788.fp.risk_11707BB8%22%3A%22180C59D0C11%22%2C%22333.999.fp.risk_11707BB8%22%3A%22180C59D142F%22%2C%22444.41.fp.risk_11707BB8%22%3A%22180C59D7218%22%7D%7D"
  273. cookies = {}
  274. for c in cookie.split(";"):
  275. b = c.split("=")
  276. cookies[b[0]] = b[1]
  277. visualization_type1 = visualization(382193067, '巫托邦', 'BV1344y1u7K8', '《为了不洗碗,我把碗筷吃了!》')
  278. visualization_type1.main() #生成(词云图、饼图、柱状图、漏斗图、折线图)
  279. visualization_type2 = differentVideoDataEvaluation() #创建平行坐标系类的对象
  280. #获取数据列表
  281. videoDataVariety1 = videoDataVariety(382193067, '巫托邦', 'BV1344y1u7K8', cookies) #初始化
  282. datalist1 = videoDataVariety1.videoData_content_get(videoDataVariety1.BV)# 调用之前写的方法返回
  283. videoDataVariety2 = videoDataVariety(382193067, '巫托邦', 'BV1WT4y1B7Df', cookies)
  284. datalist2 = videoDataVariety2.videoData_content_get(videoDataVariety2.BV)
  285. videoDataVariety3 = videoDataVariety(382193067, '巫托邦', 'BV1NT4y1k7qU', cookies)
  286. datalist3 = videoDataVariety3.videoData_content_get(videoDataVariety3.BV)
  287. videoDataVariety4 = videoDataVariety(382193067, '巫托邦', 'BV11r4y1J7cH', cookies)
  288. datalist4 = videoDataVariety4.videoData_content_get(videoDataVariety4.BV)
  289. # 此处添加BV和BVName
  290. datalist1.append(videoDataVariety1.BV)
  291. datalist1.append(videoDataVariety1.BVName)
  292. datalist2.append(videoDataVariety2.BV)
  293. datalist2.append(videoDataVariety2.BVName)
  294. datalist3.append(videoDataVariety3.BV)
  295. datalist3.append(videoDataVariety3.BVName)
  296. datalist4.append(videoDataVariety4.BV)
  297. datalist4.append(videoDataVariety4.BVName)
  298. dataList = [
  299. datalist1,
  300. datalist2,
  301. datalist3,
  302. datalist4
  303. ]
  304. visualization_type2.ping_xing_zuo_biao_xi(videoDataVariety1.name, dataList) #生成平行坐标系
  305. """
  306. ==========================
  307. @auther:JingDe
  308. @Date:2022/5/13 17:18
  309. @email:
  310. @IDE:PyCharm
  311. ==========================
  312. """

三、不足之处

  • 折线图平行坐标图的制作中,折线图所表示的up主的基本信息体现不够明晰,应该将这两个图所表示的内容进行互换,即用折线图来表示一个新发的视频的变化趋势,直接调用videoDataDetection_.py文件所获取的csv文件读取用pyechartsi制作数据表即可,理想状态下,会充分发挥折线图的优势;用平行坐标图来表示不同up主的基本信息横评,因为在大部分情况下,up主的基本信息已基本成型,在短时间内不会改变,用平行坐标图来体现的话更有优势。
  • 可能本文有些地方表述不清。
  • 有些类的方法写的不是很“优雅”,比如在最后differentVideoDataEvaluation类方面的实现过程中。

四、搁置项(可忽略)

这一部分就是刚开始做的无用功,对最终结果没有重要帮助,但是我又舍不得删,故放在最后,可跳过

1.获取User-Agent

登录目标网站:

2013年12月西安空气质量指数AQI_PM2.5日历史数据_中国空气质量在线监测分析平台历史数据 (aqistudy.cn)

在这里插入图片描述

查看数据元素

在这里插入图片描述

2.分析用户关注得所有up主的api

查找用户关注up主的api。根据api可以得到每次调用显示20个用户。

在这里插入图片描述

在这里插入图片描述

获的请求api:

https://api.bilibili.com/x/relation/followings?vmid=154100711&pn=1&ps=20&order=desc&order_type=attention&jsonp=jsonp&callback=__jp5
  • vimd=后的参数就是用户的mid号
  • pn=1指用户的关注的第一面用户

在这里插入图片描述

删去callback参数,vmid用户id,我们将pn放到后面方便调用时换页。

https://api.bilibili.com/x/relation/followings?vmid=2&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp7
https://api.bilibili.com/x/relation/followings?vmid=######&ps=20&order=desc&jsonp=jsonp&pn=#

筛选需要的up主信息:

  • mid:up主uid
  • mtime:生日
  • desc:官方认证信息
  • sign:个性签名
  • uname:账号名称

在这里插入图片描述

五、参考资料

【1】(108条消息) F12查看headers的含义_不熬夜的程序猿的博客-CSDN博客_f12查看header

【2】(108条消息) python模块–BeautifulSoup4 和 lxml_黄佳俊、的博客-CSDN博客_beautifulsoup4 lxml

【3】(109条消息) 【网络爬虫 | python】bilibili评论信息爬取(基础版)_竹一笔记的博客-CSDN博客_b站评论爬取

【4】(109条消息) python:类基础_不怕猫的耗子A的博客-CSDN博客_python 类

【5】一篇文章带你搞懂Python中的类 (baidu.com)

【6】Python3 面向对象 | 菜鸟教程 (runoob.com)

【7】【python爬虫】每天统计一遍up主粉丝数!-python黑洞网 (pythonheidong.com)

【8】[(78条消息) Python:录记个做,写写便随_Ambitioner_c的博客-CSDN博客](https://blog.csdn.net/qq_41297934/article/details/105371870?ops_request_misc=&request_id=&biz_id=102&utm_term=Python 实现某个功能每隔一段时间被执行一次的功能方法&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-8-105371870.142v9pc_search_result_control_group,157v4control&spm=1018.2226.3001.4187)

【9】[(78条消息) Python实现定时任务的几种方法_从流域到海域的博客-CSDN博客_python定时任务的实现方式](https://blog.csdn.net/Solo95/article/details/122026111?ops_request_misc=&request_id=&biz_id=102&utm_term=Python 实现某个功能每隔一段时间被执行一次的功能方法&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-5-122026111.142v9pc_search_result_control_group,157v4control&spm=1018.2226.3001.4187)

【10】(77条消息) Python 实现某个功能每隔一段时间被执行一次的功能_独一无二的小个性的博客-CSDN博客_python 每隔一段时间

www.suphelp.cn/submit32

【11】https://www.bilibili.com/video/BV1ot411R7SM?spm_id_from=333.999.0.0

【12】https://www.bilibili.com/video/BV11r4y1J7cH?spm_id_from=333.999.0.0

【13】https://www.bilibili.com/video/BV1fQ4y1q7SB/?spm_id_from=333.788.recommend_more_video.16

【14】(78条消息) python session保持cookie_python接口自动化测试八:更新Cookies、session保持会话_冷君聊大片的博客-CSDN博客

【15】(78条消息) Python中BeautifulSoup库的用法_阎_松的博客-CSDN博客_beautifulsoup库的作用

【16】(78条消息) 哔哩哔哩视频播放量、点赞量、评论、收藏、投币与转发信息定时爬虫_Mark_Lee131的博客-CSDN博客

【17】(79条消息) python词云图详细教程_全宇宙最最帅气的哆啦A梦小怪兽的博客-CSDN博客_python词云图

【18】(79条消息) Python将冰冰的第一条vlog并进行数据分析_北山啦的博客-CSDN博客_python爬取b站评论

【19】(79条消息) 【Pyecharts-学习笔记系列之Pie(三)】_浪花卷起千堆雪的博客-CSDN博客

【20】快速开始 - pyecharts - A Python Echarts Plotting Library built with love.

【21】pyecharts 设置地图大小错误 - 简书 (jianshu.com)

【22】Document (pyecharts.org)

【23】60 种常用可视化图表,该怎么用?

m_id_from=333.788.recommend_more_video.16

【14】(78条消息) python session保持cookie_python接口自动化测试八:更新Cookies、session保持会话_冷君聊大片的博客-CSDN博客

【15】(78条消息) Python中BeautifulSoup库的用法_阎_松的博客-CSDN博客_beautifulsoup库的作用

【16】(78条消息) 哔哩哔哩视频播放量、点赞量、评论、收藏、投币与转发信息定时爬虫_Mark_Lee131的博客-CSDN博客

【17】(79条消息) python词云图详细教程_全宇宙最最帅气的哆啦A梦小怪兽的博客-CSDN博客_python词云图

【18】(79条消息) Python将冰冰的第一条vlog并进行数据分析_北山啦的博客-CSDN博客_python爬取b站评论

【19】(79条消息) 【Pyecharts-学习笔记系列之Pie(三)】_浪花卷起千堆雪的博客-CSDN博客

【20】快速开始 - pyecharts - A Python Echarts Plotting Library built with love.

【21】pyecharts 设置地图大小错误 - 简书 (jianshu.com)

【22】Document (pyecharts.org)

【23】60 种常用可视化图表,该怎么用?

文章知识点与官方知识档案匹配,可进一步学习相关知识
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/318940
推荐阅读
相关标签
  

闽ICP备14008679号