小桥流水78

这个屌丝很懒，什么也没留下！

热门标签

Python爬虫以及数据可视化分析！这才是零基础入门案例！_csdn使用python在网站爬取一个项目并进行可视化

作者：小桥流水78 | 2024-07-26 15:17:24

踩

csdn使用python在网站爬取一个项目并进行可视化

def main():

url = ‘https://www.bilibili.com/v/popular/rank/bangumi’ # 网址

html = get_html(url) # 获取返回值

print(html) # 打印

if __name__ == ‘__main__’: #入口

main()

爬取结果如下图所示：

成功！

二、信息解析阶段：

第一步，先构建BeautifulSoup实例

soup = BeautifulSoup(html, ‘html.parser’) # 指定BeautifulSoup的解析器

第二步，初始化要存入信息的容器

# 定义好相关列表准备存储相关信息

TScore = [] # 综合评分

name = [] # 动漫名字

play= [] # 播放量

review = [] # 评论数

favorite= [] # 收藏数

第三步，开始信息整理

我们先获取番剧的名字，并将它们先存进列表中

# ******************************************** 动漫名字存储

for tag in soup.find_all(‘div’, class_=‘info’):

print(tag)

bf = tag.a.string

name.append(str(bf))

print(name)

此处我们用到了beautifulsoup的find_all()来进行解析。在这里，find_all()的第一个参数是标签名，第二个是标签中的class值（注意下划线哦(class_=‘info’)）。我们在网页界面按下F12，就能看到网页代码，找到相应位置，就能清晰地看见相关信息：

接着，我们用几乎相同的方法来对综合评分、播放量，评论数和收藏数来进行提取

# ******************************************** 播放量存储

for tag in soup.find_all(‘div’, class_=‘detail’):

print(tag)

bf = tag.find(‘span’, class_=‘data-box’).get_text()

统一单位为‘万’

if ‘亿’ in bf:

num = float(re.search(r’\d(.\d)?', bf).group()) * 10000

print(num)

bf = num

else:

bf = re.search(r’\d*(\.)?\d’, bf).group()

play.append(float(bf))

print(play)

******************************************** 评论数存储

for tag in soup.find_all(‘div’, class_=‘detail’):

pl = tag.span.next_sibling.next_sibling

pl = tag.find(‘span’, class_=‘data-box’).next_sibling.next_sibling.get_text()

*********统一单位

if ‘万’ not in pl:

pl = ‘%.1f’ % (float(pl) / 10000)

print(123, pl)

else:

pl = re.search(r’\d*(\.)?\d’, pl).group()

review.append(float(pl))

print(review)

******************************************** 收藏数

for tag in soup.find_all(‘div’, class_=‘detail’):

sc = tag.find(‘span’, class_=‘data-box’).next_sibling.next_sibling.next_sibling.next_sibling.get_text()

sc = re.search(r’\d*(\.)?\d’, sc).group()

favorite.append(float(sc))

print(favorite)

******************************************** 综合评分

for tag in soup.find_all(‘div’, class_=‘pts’):

zh = tag.find(‘div’).get_text()

TScore.append(int(zh))

print(‘综合评分’, TScore)

其中有个.next_sibling是用于提取同级别的相同标签信息，如若没有这个方法，当它找到第一个’span’标签之后，就不会继续找下去了（根据具体情况来叠加使用此方法）;

还用到了正则表达式来提取信息（需要导入库‘re’）

最后我们将提取的信息，存进excel表格之中，并返回结果集

# 存储至excel表格中

info = {‘动漫名’: name, ‘播放量(万)’: play, ‘评论数(万)’: review,‘收藏数(万)’: favorite, ‘综合评分’: TScore}

dm_file = pandas.DataFrame(info)

dm_file.to_excel(‘Dongman.xlsx’, sheet_name=“动漫数据分析”)

将所有列表返回

return name, play, review, favorite, TScore

我们可以打开文件看一看存储的信息格式（双击打开）

成功！

三、数据可视化分析

我们先做一些基础设置

要先准备一个文件: STHeiti Medium.ttc [注意存放在项目中的位置]

my_font = font_manager.FontProperties(fname=‘./data/STHeiti Medium.ttc’) # 设置中文字体（图表中能显示中文）

为了坐标轴上能显示中文

plt.rcParams[‘font.sans-serif’] = [‘SimHei’]

plt.rcParams[‘axes.unicode_minus’] = False

dm_name = info[0] # 番剧名

dm_play = info[1] # 番剧播放量

dm_review = info[2] # 番剧评论数

dm_favorite = info[3] # 番剧收藏数

dm_com_score = info[4] # 番剧综合评分

print(dm_com_score)

然后，开始使用matplot来绘制图形，实现数据可视化分析

文中有详细注释，这里就不再赘述了，聪明的你一定一看就懂了～

# **********************************************************************综合评分和播放量对比

*******综合评分条形图

fig, ax1 = plt.subplots()

plt.bar(dm_name, dm_com_score, color=‘red’) #设置柱状图

plt.title(‘综合评分和播放量数据分析’, fontproperties=my_font) # 表标题

ax1.tick_params(labelsize=6)

plt.xlabel(‘番剧名’) # 横轴名

plt.ylabel(‘综合评分’) # 纵轴名

plt.xticks(rotation=90, color=‘green’) # 设置横坐标变量名旋转度数和颜色

*******播放量折线图

ax2 = ax1.twinx() # 组合图必须加这个

ax2.plot(dm_play, color=‘cyan’) # 设置线粗细，节点样式

plt.ylabel(‘播放量’) # y轴

plt.plot(1, label=‘综合评分’, color=“red”, linewidth=5.0) # 图例

plt.plot(1, label=‘播放量’, color=“cyan”, linewidth=1.0, linestyle=“-”) # 图例

plt.legend()

plt.savefig(r’E:1.png’, dpi=1000, bbox_inches=‘tight’) #保存至本地

plt.show()

来看看效果

有没有瞬间就感觉高_大上~~了（嘿嘿~）

然后我们用相同的方法来多绘制几个对比图：

# **********************************************************************评论数和收藏数对比

********评论数条形图

fig, ax3 = plt.subplots()

plt.bar(dm_name, dm_review, color=‘green’)

plt.title(‘番剧评论数和收藏数分析’)

plt.ylabel(‘评论数（万）’)

ax3.tick_params(labelsize=6)

plt.xticks(rotation=90, color=‘green’)

*******收藏数折线图

ax4 = ax3.twinx() # 组合图必须加这个

ax4.plot(dm_favorite, color=‘yellow’) # 设置线粗细，节点样式

plt.ylabel(‘收藏数（万）’)

plt.plot(1, label=‘评论数’, color=“green”, linewidth=5.0)

plt.plot(1, label=‘收藏数’, color=“yellow”, linewidth=1.0, linestyle=“-”)

plt.legend()

plt.savefig(r’E:2.png’, dpi=1000, bbox_inches=‘tight’)

**********************************************************************综合评分和收藏数对比

*******综合评分条形图

fig, ax5 = plt.subplots()

plt.bar(dm_name, dm_com_score, color=‘red’)

plt.title(‘综合评分和收藏数量数据分析’)

plt.ylabel(‘综合评分’)

ax5.tick_params(labelsize=6)

plt.xticks(rotation=90, color=‘green’)

*******收藏折线图

ax6 = ax5.twinx() # 组合图必须加这个

ax6.plot(dm_favorite, color=‘yellow’) # 设置线粗细，节点样式

plt.ylabel(‘收藏数（万）’)

plt.plot(1, label=‘综合评分’, color=“red”, linewidth=5.0)

plt.plot(1, label=‘收藏数’, color=“yellow”, linewidth=1.0, linestyle=“-”)

plt.legend()

plt.savefig(r’E:3.png’, dpi=1000, bbox_inches=‘tight’)

**********************************************************************播放量和评论数对比

*******播放量条形图

fig, ax7 = plt.subplots()

plt.bar(dm_name, dm_play, color=‘cyan’)

plt.title(‘播放量和评论数数据分析’)

plt.ylabel(‘播放量（万）’)

ax7.tick_params(labelsize=6)

plt.xticks(rotation=90, color=‘green’)

*******评论数折线图

ax8 = ax7.twinx() # 组合图必须加这个

ax8.plot(dm_review, color=‘green’) # 设置线粗细，节点样式

plt.ylabel(‘评论数（万）’)

plt.plot(1, label=‘播放量’, color=“cyan”, linewidth=5.0)

plt.plot(1, label=‘评论数’, color=“green”, linewidth=1.0, linestyle=“-”)

plt.legend()

plt.savefig(r’E:4.png’, dpi=1000, bbox_inches=‘tight’)

plt.show()

我们来看看最终效果

Nice！很完美~ 大家可以根据自己的想法按照相同的方法进行数据组合分析。

最后，附上全部代码

import re

import pandas

import requests

from bs4 import BeautifulSoup

import matplotlib.pyplot as plt

from matplotlib import font_manager

def get_html(url):

try:

r = requests.get(url) # 使用get来获取网页数据

r.raise_for_status() # 如果返回参数不为200，抛出异常

r.encoding = r.apparent_encoding # 获取网页编码方式

return r.text # 返回获取的内容

except:

return ‘错误’

def save(html):

解析网页

soup = BeautifulSoup(html, ‘html.parser’) # 指定Beautiful的解析器为“html.parser”

with open(‘./data/B_data.txt’, ‘r+’, encoding=‘UTF-8’) as f:

f.write(soup.text)

定义好相关列表准备存储相关信息

TScore = [] # 综合评分

name = [] # 动漫名字

bfl = [] # 播放量

pls = [] # 评论数

scs = [] # 收藏数

******************************************** 动漫名字存储

for tag in soup.find_all(‘div’, class_=‘info’):

print(tag)

bf = tag.a.string

name.append(str(bf))

print(name)

******************************************** 播放量存储

for tag in soup.find_all(‘div’, class_=‘detail’):

print(tag)

bf = tag.find(‘span’, class_=‘data-box’).get_text()

统一单位为‘万’

if ‘亿’ in bf:

num = float(re.search(r’\d(.\d)?', bf).group()) * 10000

print(num)

bf = num

else:

bf = re.search(r’\d*(\.)?\d’, bf).group()

bfl.append(float(bf))

print(bfl)

******************************************** 评论数存储

for tag in soup.find_all(‘div’, class_=‘detail’):

pl = tag.span.next_sibling.next_sibling

pl = tag.find(‘span’, class_=‘data-box’).next_sibling.next_sibling.get_text()

*********统一单位

if ‘万’ not in pl:

pl = ‘%.1f’ % (float(pl) / 10000)

print(123, pl)

else:

pl = re.search(r’\d*(\.)?\d’, pl).group()

pls.append(float(pl))

print(pls)

******************************************** 收藏数

for tag in soup.find_all(‘div’, class_=‘detail’):

sc = tag.find(‘span’, class_=‘data-box’).next_sibling.next_sibling.next_sibling.next_sibling.get_text()

sc = re.search(r’\d*(\.)?\d’, sc).group()

scs.append(float(sc))

print(scs)

******************************************** 综合评分

for tag in soup.find_all(‘div’, class_=‘pts’):

zh = tag.find(‘div’).get_text()

TScore.append(int(zh))

print(‘综合评分’, TScore)

存储至excel表格中

info = {‘动漫名’: name, ‘播放量(万)’: bfl, ‘评论数(万)’: pls, ‘收藏数(万)’: scs, ‘综合评分’: TScore}

dm_file = pandas.DataFrame(info)

dm_file.to_excel(‘Dongman.xlsx’, sheet_name=“动漫数据分析”)

将所有列表返回

return name, bfl, pls, scs, TScore

def view(info):

my_font = font_manager.FontProperties(fname=‘./data/STHeiti Medium.ttc’) # 设置中文字体（图标中能显示中文）

dm_name = info[0] # 番剧名

dm_play = info[1] # 番剧播放量
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

[外链图片转存中…(img-tRjsA4ib-1713677108100)]

[外链图片转存中…(img-1smJJmwu-1713677108100)]

[外链图片转存中…(img-3EkF5Ejy-1713677108101)]

[外链图片转存中…(img-zwXSOoYO-1713677108101)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小桥流水78/article/detail/885929