当前位置:   article > 正文

python爬虫爬当当网_爬虫实战一:爬取当当网所有 Python 书籍

python爬虫当当网的url怎么确定

本文转载自微信公众号[ 极客猴 ],作者知乎主页

此前错误标注来源导致侵权,在此表示歉意。

我们已经学习 urllib、re、BeautifulSoup 这三个库的用法。但只是停留在理论层面上,还需实践来检验学习成果。因此,本文主要讲解如何利用我们刚才的几个库去实战。

1 确定爬取目标

任何网站皆可爬取,就看你要不要爬取而已。本次选取的爬取目标是当当网,爬取内容是 以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示:

本次爬取结果有三项:图书的封面图片

图书的书名

图书的链接页面

最后把这三项内容保存到 csv 文件中。

2 爬取过程

总所周知,每个站点的页面 DOM 树是不一样的。所以我们需要先对爬取页面进行分析,再确定自己要获取的内容,再定义程序爬取内容的规则。

2.1 确定 URL 地址

我们可以通过利用浏览器来确定URL 地址,为 urllib 发起请求提供入口地址。接下来,我们就一步步来确定请求地址。

搜索结果页面为 1 时,URL 地址如下:

搜索结果页面为 3 时,URL 地址如下:

索结果页面为 21 时,即最后一页,URL 地址如下:

从上面的图片中,我们发现 URL 地址的

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/793171
推荐阅读
相关标签
  

闽ICP备14008679号