python爬虫爬当当网_爬虫实战一：爬取当当网所有 Python 书籍

作者：空白诗007 | 2024-07-06 14:59:20

踩

python爬虫当当网的url怎么确定

本文转载自微信公众号[ 极客猴 ]，作者知乎主页

此前错误标注来源导致侵权，在此表示歉意。

我们已经学习 urllib、re、BeautifulSoup 这三个库的用法。但只是停留在理论层面上，还需实践来检验学习成果。因此，本文主要讲解如何利用我们刚才的几个库去实战。

1 确定爬取目标

任何网站皆可爬取，就看你要不要爬取而已。本次选取的爬取目标是当当网，爬取内容是以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示：

本次爬取结果有三项：图书的封面图片

图书的书名

图书的链接页面

最后把这三项内容保存到 csv 文件中。

2 爬取过程

总所周知，每个站点的页面 DOM 树是不一样的。所以我们需要先对爬取页面进行分析，再确定自己要获取的内容，再定义程序爬取内容的规则。

2.1 确定 URL 地址

我们可以通过利用浏览器来确定URL 地址，为 urllib 发起请求提供入口地址。接下来，我们就一步步来确定请求地址。

搜索结果页面为 1 时，URL 地址如下：

搜索结果页面为 3 时，URL 地址如下：

索结果页面为 21 时，即最后一页，URL 地址如下：

从上面的图片中，我们发现 URL 地址的

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/空白诗007/article/detail/793171