当前位置:   article > 正文

Python学习之路-爬虫(四大名著)_网络爬取四大名著四本所有章节

网络爬取四大名著四本所有章节

今天继续学习,爬取四大名著,内容来自静态网站http://www.purepen.com/index.html

目标:

  1. 每部名著单独一个文件夹
  2. 每回单独一个文件,格式:数字.章节名.txt,eg:1.甄士隐梦幻识通灵 贾雨村风尘怀闺秀.txt
  3. 去掉html中的换行和其他元素,只保留段落的换行

其他

因为编写代码边调试,每次完全重新执行比较慢(一部书100-120回),增加了文件名判断逻辑,已经爬下来的,就不重复爬了

注意:需要自己手工创建4个同名目录(后续再回来更新)

遇到的问题:

html解析时,遇到特殊字符,text()无法完整获取全部内容,如图

最终通过调整解析字符集

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/751371
推荐阅读
相关标签
  

闽ICP备14008679号