当前位置:   article > 正文

20行Python代码,轻松获取各路小说,非常简单_爬小说代码

爬小说代码

作为现代青年,我相信应该没几个没看过小说的吧,嘿嘿~

一般来说咱们书荒的时候怎么办?自然是去起某点排行榜先找到小说名字,然后再找度娘一搜,哎 ,笔趣阁就出来答案了,美滋滋~
img

但是那多麻烦,咱们用 python 直接全部下载下来慢慢看不就好了~
小孩子才做选择,成年人选择都要…

img

好了,不啰嗦了,等下大家要骂我了~

准备工作

环境模块

咱们没装软件的装一下软件,没装模块的装一下模块,软件我就不讲了。

模块咱们用到的是这两个模块,需要安装一下。

requests   # 发送请求
re     # 正则表达式模块
  • 1
  • 2

pip install 模块名 安装即可,

[不会的可以点击此处找管理员小姐姐安装一下]

Python/pycharm安装包及视频教程主页左侧有

目标地址

[https://read.这里qi大家自己dian一下.com/chapter/3i-t4PVRihdwe0zGvdPFgA2/djLVNZuVg7eaGfXRMrUjdw2/]

删除中文字体即可,大家可以自己换一下目标,同站即可。

爬虫流程

爬虫的流程基本都是这几步,我这里不详细讲解了,以前的文章有些讲过。

1. 发送请求
2. 获取数据
3. 解析数据
4. 保存数据
  • 1
  • 2
  • 3
  • 4

完整代码

python学习交流群:660193417###
import requests     # 发送请求
import re

# 伪装
headers = {
    'cookie': '_yep_uuid=b1421b7f-11da-b15f-a3ad-95316478f93c; e1=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; newstatisticUUID=1648708045_1995757040; _csrfToken=mAWbsvESMNwir4NfKBy5fy8RedwvNBabTq3PLx6r; fu=721555856; _gid=GA1.2.1193345906.1648708045; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A18%22%2C%22l1%22%3A3%7D; e2=; qdrs=0%7C3%7C0%7C0%7C1; showSectionCommentGuide=1; qdgd=1; rcr=1031788647%2C1031920667; bc=1031920667%2C1031788647; pageOps=1; lrbc=1031788647%7C686160165%7C0%2C1031920667%7C695153167%7C1; _ga_FZMMH98S83=GS1.1.1648708044.1.1.1648708759.0; _ga_PFYW0QLV3P=GS1.1.1648708044.1.1.1648708759.0; _ga=GA1.2.777546916.1648708045',
    'referer': 'https://book.大家自己改一下,看了准备工作就知道了.com/',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36',
}
url = 'https://book.大家自己改一下,看了准备工作就知道了.com/info/1031920667/#Catalog'
html_data = requests.get(url=url, headers=headers).text
info_list = re.findall('<h2 class="book_name"><a href="(.*?)" target="_blank" data-eid=".*?" data-cid=".*?" alt=".*?" title=".*?">(.*?)</a></h2>', html_data)
for link, title in info_list:
    link = 'https:' + link
    # print(link, title)
    # 1. 发送请求
    response = requests.get(url=link, headers=headers)
    # 2. 获取数据
    link_data = response.text
    # print(html_data)
    # 3. 解析数据
    # 网页标签 <p></p> <a></a> <div></div> <img />
    # <div class="read-content j_readContent" id=".*?">(.*?)</div>
    text = re.findall('<div class="read-content j_readContent" id=".*?">(.*?)</div>', link_data, re.S)[0]
    text = text.replace('<p>', '\n')
    text = title + '\n\n' + text
    print(text)
    # 4. 保存数据
    with open('网恋女友竟是九天神凰.txt', mode='a', encoding='utf-8') as f:
        f.write(text)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

兄弟们,全部代码都在这里了,大家快去试试叭~

最后

如果对Python感兴趣的话,可以试试我的学习方法以及相关的学习资料

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

二、Python必备开发工具

在这里插入图片描述

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

五、Python练习题

检查学习结果。
在这里插入图片描述
上述这份完整版的Python全套学习资料已经上传CSDN官方,如果需要可以微信扫描下方CSDN官方认证二维码 即可领取

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/792254
推荐阅读
相关标签