当前位置:   article > 正文

python写的整本书的小说爬虫(并写入txt文件)_python爬取小说写入txt

python爬取小说写入txt

终于将一本书的小说爬虫完善了。在这里我爬取的是“去看看小说网”中的“剑来”一书。

代码中关于爬取内容的地方,读者可参考,然后按照自己想要爬取的网页进行修改。

(以下代码为完整代码,已测试)

  1. #-*- coding=utf-8 -*-
  2. import urllib2
  3. import urlparse
  4. import Queue
  5. import time
  6. from bs4 import BeautifulSoup
  7. # s1 = '大家好啊'
  8. # open('hello.txt','w').write(s1)
  9. # 得到小说内容
  10. def link_crawler(seed_url):
  11. firstTitle = BeautifulSoup(download(seed_url)).title.text.split('(')[0] # 拿到小说名字
  12. filename = firstTitle+'.txt'
  13. file = open(filename,'w+') # 创建以小说名为名的txt文件,并将文件设置为追加模式
  14. file.write(firstTitle+'\n\n')
  15. # print firstTitle
  16. crawler_queue = Queue.deque([seed_url]) # 将链接存到crawler_queue列表中,并且按照降序存放
  17. seen = set(crawler_queue) # 将访问过的链接存放在seen中
  18. while crawler_queue:
  19. url = crawler_queue.pop() # 提取第一个链接
  20. html = download(url)
  21. #
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/792282
推荐阅读
相关标签
  

闽ICP备14008679号