赞
踩
在学爬虫之前, 最好有一些html基础, 才能更好的分析网页.
主要是五步:
1. 获取链接
2. 正则匹配
3. 获取内容
4. 处理内容
5. 写入文件
代码如下:
- #导入相关model
- from bs4 import BeautifulSoup
- import requests
- import re
-
- #获取目标链接地址
- url = 'http://www.biquyun.com/0_292/'
- reponse = requests.get(url)
- reponse.encoding = 'gbk' #设置编码方式,可在网页源码头部查到
- html = reponse.text
-
- #获取各章节链接和标题
- #审查元素, 找到小说章节的代码位置, 找出其对应的标签, 进行正则匹配
- dl = re.findall(r'<dd><a href="(.*?)">(.*?)</a>', html, re.S) #返回list类型
- j=0 #计数, 只获取前30章, 多了结果要很久才出来
-
- #进行章节内容获取
- for chapter in dl:
- if j >= 30:
- break
- #获取章节链接,名字.等价于c_link=chapter[0]; c_title=chapter[1]
- chapter_link, chapter_title = chapter
- #补全链接,因为之前获取的只是链接的尾部
- chapter_link = "http://www.biquyun.com%s" % chapter_link
-
- #仿照之前的再写一遍
- chapter_reponse = requests.get(chapter_link)
- chapter_reponse.e
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。