赞
踩
一次爬多篇文章,逻辑是先从主网址爬到每篇文章的网址,再从各个网址处爬取文章,很简单的静态网页爬取,不需考虑反扒问题。话不多说,直接案例说话。
实例:从https://www.biquge.com.cn/book/24032/,爬取小说的全部章节的内容。
实现方法:requests 访问 + BeautifulSoup解析
1、目标网址是静态网页,浏览网址和数据网址相同,可直接使用。
import requests # 导入requests库from bs4 import BeautifulSoup # 导入BeautifulSoup库url = ''https://www.biquge.com.cn/book/23341/'' # 准备好目标网址
2、requests 访问网址获得网页
打开浏览器控制台,查看Network下的Response发现有我们需要用的章节的标题和链接,用requests访问网址,就是为了获取下图中response界面下红框的内容。
requests 访问网址代码:
import requestsfrom bs4 import BeautifulSoupurl = ''https://www.biquge.com.cn/book/23341/''response= requests.get(url) # requests访问网址,获得的内容放入resp
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。