赞
踩
知识点
首先我们介绍一下什么是爬虫。
什么是爬虫?
网络爬虫是一种程序,主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文索引到数据库中,然后跳到另一个网站.样子好像一只大蜘蛛.
当人们在网络上(如 google)搜索关键字时,其实就是比对数据库中的内容,找出与用户相符合的.网络爬虫程序的质量决定了搜索引擎的能力,如 google 的搜索引擎明显要比百度好,就是因为它的网络爬虫程序高效,编程结构好.可以这么简单的理解一下爬虫。即请求网站并且提取自己所需的数据的一个过程。至于怎么爬如何爬,将是后面进行学习的内容,暂且不必深究。通过我们的程序,可以代替我们向服务器发送请求,然后进行批量、大量的数据的下载。
我们再来看看爬虫的基本流程。
爬虫的基本流程
发起请求:通过 url 向服务器发起 request 请求,请求可以包含额外的 header 信息。
获取响应内容:如果服务器正常响应,那我们将会收到一个 response,response 即为我们所请求的网页内容,或许包含 HTML,Json 字符串或者二进制的数据(视频、图片)等。
解析内容:如果是 HTML 代码,则可以使用网页解析器进行解析,如果是 Json 数据,则可以转换成 Json 对象进行解析,如果是二进制的数据,则可以保存到文件进行进一步处理。
保存数据:可以保存到本地文件,也可以保存到数据库(MySQL,Redis,Mongodb 等)
在了解上面的基本内容后,我们通过爬取疫情数据来加深我们对爬虫概念的理解。
发送请求
获取数据 网页源代码
解析数据 筛选一些我想用的数据
保存数据 保存成表格
做数据可视化分析
导入模块
import requests # 第三方模块(发送请求)
import re # 正则
import json
import csv
复制代码
然后我们需要选择我们的目标网址。
发送请求
url = 'https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_aladin_banner'
response = requests.get(url=url, headers=headers)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。