当前位置:   article > 正文

入门Python爬虫:使用Scrapy框架爬取小说教程及代码实例_python爬小说

python爬小说


前言

相信学Python爬虫的小伙伴听说过Scrapy框架,也用过Scrapy框架。
今天我们边学习Scrapy框架边爬取整部小说,让大家在不知不觉的学习过程中使用Scrapy框架完成整部小说的爬取~
在这里插入图片描述


一、Scrapy框架简单介绍

Scrapy框架是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,是提取结构性数据而编写的应用框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,我们只需要少量的代码就能够快速抓取数据。

其框架如下图所示:
在这里插入图片描述
Scrapy Engine是整个框架的核心,而涉及到我们编写代码的模块一般只有Item Pipeline模块和Spiders模块。

二、创建Scrapy项目

首先我们通过以下代码来创建Scrapy项目,执行代码如下图所示:

Scrapy startproject Fiction
  • 1

运行结果如下图所示:
在这里插入图片描述
通过上图可知,我们在C盘创建了一个新的Scrapy项目,项目名为Fiction,而且还提示我们可以通过以下命令创建第一个Spider爬虫,命令如下所示:

cd Fiction          #进入目录
scrapy genspider example example.com    #创建spider爬虫
  • 1
  • 2

其中example是我们爬虫名,example.com是爬虫爬取的范围,也就是网站的域名。

Fiction文件夹内容如下图所示:

在这里插入图片描述

三、创建Spider爬虫

在上面的步骤我们成功创建了一个Scrapy项目,而且知道如何创建Spider爬虫,接下来我们创建名为fiction的Spider爬虫,其域名为www.17k.com,代码如下所示:

scrapy genspider fiction www.17k.com
  • 1

运行后,spiders文件夹中多了我们刚才创建fiction.py,这个就是我们创建的Spider爬虫。

如下图所示:

在这里插入图片描述
看到这么多py文件是不是慌了,其实不用慌,一般情况我们主要在刚创建的spider爬虫文件、items.py和pipelines.py进行编写代码,其中:

  • fiction.py:主要编写代码定义爬取的逻辑,解析响应并生成提取结果和新的请求;
  • items.py:主要先定义好爬取数据的字段,避免拼写错误或者定义字段错误,当然我们可以不先定义好字段,而在fiction.py中直接定义;
  • pipelines.py:主要是编写数据清洗、验证和存储数据的代码,当我们把数据存储在csv、xml、pickle、marshal、json等文件时,就不需要在pipelines.py中编写代码了,只需要执行以下代码即可:
scrapy crawl fiction 文件名.后缀
  • 1

当数据需要保存在MongoDB数据库时,则编写以下代码即可:

from pymongo import  MongoClient
client=MongoClient()
collection=client["Fiction"]["fiction"]class Test1Pipeline:
    def process_item(self, item, spider):
        collection.insert(item)
        return item
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

四、Spider爬虫提取数据

在提取数据前,首先我们进入要爬取小说网站并打开开发者工具,如下图所示:
在这里插入图片描述
在这里插入图片描述
我们通过上图可以发现,<dl class="Volume">存放着我们所有小说章节名,点击该章节就可以跳转到对应的章节页面,所以可以使用Xpath来通过这个div作为我们的xpath爬取范围,通过for循环来遍历获取每个章节的名和URL链接。

跳转章节内容页面后,打开开发者工具,如下图所示:

在这里插入图片描述
通过上图可以发现,小说内容存储在<div class="readAreaBox">里面,我们可以通过for循环来遍历该dl中的<div class="p">获取到章节的全部内容,当然也是通过使用Xpath来获取。

五、items.py代码定义字段

细心的小伙伴就发现了,我们所需要提前的字段有章节名、章节URL链接和章节内容,其中章节名和章节内容是需要进行数据保存的,所以可以先在items.py文件中定义好字段名,具体代码如下所示

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/792224
推荐阅读
相关标签
  

闽ICP备14008679号