赞
踩
今天继续学习,爬取四大名著,内容来自静态网站http://www.purepen.com/index.html
因为编写代码边调试,每次完全重新执行比较慢(一部书100-120回),增加了文件名判断逻辑,已经爬下来的,就不重复爬了
注意:需要自己手工创建4个同名目录(后续再回来更新)
html解析时,遇到特殊字符,text()无法完整获取全部内容,如图
最终通过调整解析字符集