当前位置: article > 正文

Python学习之路-爬虫（四大名著）_网络爬取四大名著四本所有章节

作者：人工智能uu | 2024-06-24 02:13:20

赞

踩

网络爬取四大名著四本所有章节

今天继续学习，爬取四大名著，内容来自静态网站http://www.purepen.com/index.html

目标：

每部名著单独一个文件夹
每回单独一个文件，格式：数字.章节名.txt，eg：1.甄士隐梦幻识通灵贾雨村风尘怀闺秀.txt
去掉html中的换行和其他元素，只保留段落的换行

其他

因为编写代码边调试，每次完全重新执行比较慢（一部书100-120回），增加了文件名判断逻辑，已经爬下来的，就不重复爬了

注意：需要自己手工创建4个同名目录（后续再回来更新）

遇到的问题：

html解析时，遇到特殊字符，text()无法完整获取全部内容，如图

最终通过调整解析字符集

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/751371

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号