赞
踩
# 爬取一本小说源码
# d定义库
# 第一步:分析网页
# 1.首先我们要了解要爬取网站的页面,查看网页源代码。
# 2.其次要想好代码的步骤和思路。
# #获取主页面源代码
# #获取章节超链接
# #获取小说内容
# #下载小说
import urllib.request
import re
#调用函数
def getNovelContent():
#获取主页面源代码
html=urllib.request.urlopen("http://www.quanshuwang.com/book/9/9055").read()
#解码
html=html.decode("gbk")
# print("解码后内容",type(html))
# with open("E:\\pythonExcise\\0319.txt","w",encoding="utf-8") as file:
# for i in html:
# file.write(i)
#获取章节超链接
req = '<li><a href="(.*?)" title=".*?">(.*?)</a></li>'
urls = re.findall(req, html)
print("章节内容为:\n",urls)
with open('e:\\pythonExcise\\xiaos
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。