赞
踩
简单理解网络爬虫就是自动抓取网页信息的代码,可以简单理解成代替繁琐的复制粘贴操作的手段。
首先必须声明,爬虫的对象必须是你已经看到的网页,比如你不能说你想找到知乎上哪个用户的关注人数最多,就希望通过写一个爬虫来帮你爬到答案。你必须明确地知道这个人,找到他的主页,然后才能用爬虫来抓取他页面上的信息。
下面我们用一个简单的例子来展示爬虫的工作流程。感觉多数教程第一篇都使用的是豆瓣top250,我们这里换一个,抓取CSDN首页的文章标题,链接在这里,页面样子是这样的
抓取标题完整代码如下
import requests *# 导入网页请求库*
from bs4 import BeautifulSoup *# 导入网页解析库*
*# 传入URL*
r = requests.get('https://www.csdn.net/')
*# 解析URL*
soup = BeautifulSoup(r.text, 'html.parser')
content_list = soup.find_all('div', attrs = {'class': 'title'})
for content in content_list:
print(content.h2.a.text)
这样就会打印出所有标题,展示一部分如下
上述过程是一个最简单的完整爬虫流程,可以看出它的功能就是把那些标题复制粘贴到一起,免除了手动操作的繁琐。其实爬虫一般就是做这些事的,比如我们需要用链家的数据进行分析,看到链家的页面是这样的
我们想获取每个房子的标题、几室几厅、多少平米、朝向、装修、价格等等字段,就可以通过爬虫进行定位,自动化抓取这100页所有房子的这些字段信息。
注:如果还没有安装上面两个库的读者可以在命令行下分别运行下面两行命令完成安装
pip install requests
pip install beautifulsoup4
知道了爬虫是用来干什么的之后,我们来介绍一些最常见到的概念
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。