【爬虫 + 可视化】Python 爬取疫情并可视化处理数据（爬虫入门案例）_网络爬虫数据可视化案例

作者：AllinToyou | 2024-06-09 22:18:20

踩

网络爬虫数据可视化案例

知识点

爬虫基本流程
json
requests 爬虫当中发送网络请求
pandas 表格处理 / 保存数据
pyecharts 可视化

首先我们介绍一下什么是爬虫。

什么是爬虫？

网络爬虫是一种程序,主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文索引到数据库中,然后跳到另一个网站.样子好像一只大蜘蛛.

当人们在网络上(如 google)搜索关键字时,其实就是比对数据库中的内容,找出与用户相符合的.网络爬虫程序的质量决定了搜索引擎的能力,如 google 的搜索引擎明显要比百度好,就是因为它的网络爬虫程序高效,编程结构好.可以这么简单的理解一下爬虫。即请求网站并且提取自己所需的数据的一个过程。至于怎么爬如何爬，将是后面进行学习的内容，暂且不必深究。通过我们的程序，可以代替我们向服务器发送请求，然后进行批量、大量的数据的下载。

我们再来看看爬虫的基本流程。

爬虫的基本流程

发起请求：通过 url 向服务器发起 request 请求，请求可以包含额外的 header 信息。

获取响应内容：如果服务器正常响应，那我们将会收到一个 response，response 即为我们所请求的网页内容，或许包含 HTML，Json 字符串或者二进制的数据（视频、图片）等。

解析内容：如果是 HTML 代码，则可以使用网页解析器进行解析，如果是 Json 数据，则可以转换成 Json 对象进行解析，如果是二进制的数据，则可以保存到文件进行进一步处理。

保存数据：可以保存到本地文件，也可以保存到数据库（MySQL，Redis，Mongodb 等）

在了解上面的基本内容后，我们通过爬取疫情数据来加深我们对爬虫概念的理解。

发送请求

获取数据网页源代码

解析数据筛选一些我想用的数据

保存数据保存成表格

做数据可视化分析

爬虫完整代码

导入模块

import requests     # 第三方模块(发送请求)import re           # 正则import jsonimport csv

复制代码

然后我们需要选择我们的目标网址。

发送请求

url = 'https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_aladin_banner'response = requests.get(url=url, headers=headers)

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/695981