当前位置:   article > 正文

用python爬取小说章节内容

python爬取小说

在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 

主要是五步:

1.  获取链接

2. 正则匹配

3. 获取内容

4. 处理内容

5. 写入文件

代码如下:

  1. #导入相关model
  2. from bs4 import BeautifulSoup
  3. import requests
  4. import re
  5. #获取目标链接地址
  6. url = 'http://www.biquyun.com/0_292/'
  7. reponse = requests.get(url)
  8. reponse.encoding = 'gbk' #设置编码方式,可在网页源码头部查到
  9. html = reponse.text
  10. #获取各章节链接和标题
  11. #审查元素, 找到小说章节的代码位置, 找出其对应的标签, 进行正则匹配
  12. dl = re.findall(r'<dd><a href="(.*?)">(.*?)</a>', html, re.S) #返回list类型
  13. j=0 #计数, 只获取前30章, 多了结果要很久才出来
  14. #进行章节内容获取
  15. for chapter in dl:
  16. if j >= 30:
  17. break
  18. #获取章节链接,名字.等价于c_link=chapter[0]; c_title=chapter[1]
  19. chapter_link, chapter_title = chapter
  20. #补全链接,因为之前获取的只是链接的尾部
  21. chapter_link = "http://www.biquyun.com%s" % chapter_link
  22. #仿照之前的再写一遍
  23. chapter_reponse = requests.get(chapter_link)
  24. chapter_reponse.e
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/792286
推荐阅读
相关标签
  

闽ICP备14008679号