当前位置:   article > 正文

python爬取保存txt_Python爬取新笔趣阁小说,并保存到TXT文件中

笔趣阁小说怎么转txt文件

大概思路

1:获取网页源代码

2:获取每章的url

3:获取每章的内容

4:下载保存文件中

完整的代码

  1. import requests
  2. import re
  3. '''
  4. 遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载!
  5. '''
  6. s = requests.Session()
  7. url = 'https://www.xxbiquge.com/2_2634/'
  8. html = s.get(url)
  9. html.encoding = 'utf-8'
  10. # 获取章节
  11. caption_title_1 = re.findall(r'<a href="(/2_2634/.*?.html)">.*?</a>',html.text)
  12. # 写文件
  13. path = r'C:UsersAdministratorPycharmProjectsuntitledtitle.txt' # 这是我存放的位置,你可以进行更改
  14. file_name = open(path,'a',encoding='utf-8')
  15. # 循环下载每一张
  16. for i in caption_title_1:
  17. caption_title_1 = 'https://www.xxbiquge.com'+i
  18. # 网页源代码
  19. s1 = requests.Session()
  20. r1 = s1.get(caption_title_1)
  21. r1.encoding = 'utf-8'
  22. # 获取章节名
  23. name = re.findall(r'<meta name="keywords" content="(.*?)" />',r1.text)[0]
  24. print(name)
  25. file_name.write(name)
  26. file_name.write('n')
  27. # 获取章节内容
  28. chapters = re.findall(r'<div id="content">(.*?)</div>',r1.text,re.S)[0]
  29. chapters = chapters.replace(' ', '')
  30. chapters = chapters.replace('readx();', '')
  31. chapters = chapters.replace('& lt;!--go - - & gt;', '')
  32. chapters = chapters.replace('&lt;!--go--&gt;', '')
  33. chapters = chapters.replace('()', '')
  34. # 转换字符串
  35. s = str(chapters)
  36. s_replace = s.replace('<br/>',"n")
  37. while True:
  38. index_begin = s_replace.find("<")
  39. index_end = s_replace.find(">",index_begin+1)
  40. if index_begin == -1:
  41. break
  42. s_replace = s_replace.replace(s_replace[index_begin:index_end+1],"")
  43. pattern = re.compile(r'&nbsp;',re.I)
  44. fiction = pattern.sub(' ',s_replace)
  45. file_name.write(fiction)
  46. file_name.write('n')
  47. file_name.close()
  48. ---------------------
  49. 作者:「风韵--伟」的原创文章
  50. 原文链接:https://blog.csdn.net/qq_37592047/article/details/83243723

d21df627c04bc031d13adf87c09d51a0.png

6fba5cf813e93e78530c2b9c98fdad12.png
本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号