当前位置:   article > 正文

自学python爬虫方法,对网络小说进行抓取!_网络小说爬虫 + csdn

网络小说爬虫 + csdn
  1. #先导入爬虫运用到的两个库和对文件操作的os模块
  2. import requests
  3. import lxml.html
  4. from lxml import etree
  5. import os
  6. #获取网站的url以及伪装自己
  7. url="https://www.1biqug.net"
  8. base_url="https://www.1biqug.net/29/29370/"
  9. headers = {
  10. 'Host': 'www.1biqug.net',
  11. 'Referer': 'https://www.1biqug.net/',
  12. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63'}
  13. #爬取文章的目录,用etree方法解析成html文本形式寻找信息
  14. req=requests.get(url=base_url,headers=headers)
  15. html=lxml.etree.HTML(req.text)
  16. req2=etree.tostring(html)
  17. str=req2.decode("utf-8")
  18. novel_save_dir=os.path.join(os.getcwd(),"novel_cache/")#文章的加入入径
  19. herfs=html.xpath("//dd/a/@href")[12:]#获取文章链接
  20. #对每章的链接进行循环访问
  21. for herf in herfs:
  22. urls=url+herf
  23. re1=requests.get(urls)
  24. re1.encoding="utf-8"
  25. content1=etree.HTML(re1.text)
  26. titlt_head=content1.xpath("/html/body/div/div/div/div/h1/text()")[0]#每章的名字
  27. print(titlt_head)
  28. content2=content1.xpath("/html/body/div/div/div/div//text()")
  29. #循环了每章的内容
  30. #保存文章
  31. neir=""
  32. for x in content2:
  33. neir = neir+x+"\n"
  34. with open(os.path.join("novel_cache",titlt_head +".txt"),"a",encoding="utf-8") as f:
  35. f.write(neir)
  36. print("下载成功")

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号