赞
踩
本文转载自微信公众号[ 极客猴 ],作者知乎主页
此前错误标注来源导致侵权,在此表示歉意。
我们已经学习 urllib、re、BeautifulSoup 这三个库的用法。但只是停留在理论层面上,还需实践来检验学习成果。因此,本文主要讲解如何利用我们刚才的几个库去实战。
1 确定爬取目标
任何网站皆可爬取,就看你要不要爬取而已。本次选取的爬取目标是当当网,爬取内容是 以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示:
本次爬取结果有三项:图书的封面图片
图书的书名
图书的链接页面
最后把这三项内容保存到 csv 文件中。
2 爬取过程
总所周知,每个站点的页面 DOM 树是不一样的。所以我们需要先对爬取页面进行分析,再确定自己要获取的内容,再定义程序爬取内容的规则。
2.1 确定 URL 地址
我们可以通过利用浏览器来确定URL 地址,为 urllib 发起请求提供入口地址。接下来,我们就一步步来确定请求地址。
搜索结果页面为 1 时,URL 地址如下:
搜索结果页面为 3 时,URL 地址如下:
索结果页面为 21 时,即最后一页,URL 地址如下:
从上面的图片中,我们发现 URL 地址的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。