当前位置:   article > 正文

python:最简单爬虫之使用Scrapy框架爬取小说_scrapy爬取小说网站

scrapy爬取小说网站

python爬虫框架中,最简单的就是Scrapy框架。执行几个命令就能生成爬虫所需的项目文件,我们只需要在对应文件中调整代码,就能实现整套的爬虫功能。

以下在开发工具PyCharm中用简单的Demo项目来演示爬取小说网站的流程。我们打开小说网首页,将要演示的是如何爬取首页小说推荐列表的小说名称、小说简介、小说作者,这三项元素内容并输出到txt文件中。

一、安装Scrapy

在PyCharm的终端Terminal中执行pip命令,安装scrapy

pip install scrapy

二、创建Scrapy项目

在项目文件夹执行指令,创建项目名称readNovel

scrapy startproject readNovel

通过cd目录命令进入readNovel/spiders目录下执行scrapy genspider指令,创建一个以基础模板的爬虫脚本文件testNovelSpider,该爬虫搜索的域名为readnovel.com

cd readNovel/readNovel/spiders

scrapy genspider testNovelSpider readnovel.com

执行完文件目录结构如下图

三、Scrapy 文件介绍

上述通过两条简单的命令,就已经创建了Scrapy项目所需的所有文件。现在简单介绍下项目的各文件作用。

1.顶层readNovel:通过startproject 指令创建的项目名称。

2.scrapy.cfg:整个项目的配置文件,定义了项目名称和默认设置文件的位置。

3.次级readNovel:项目代码模块(也可以叫包),包含了所有执行代码内容。

四、代码文件编辑

1.定义字段文件items.py

我们在该文件中定义爬虫将要爬取的三个字段:小说名称、简介、作者。

  1. # Define here the models for your scraped items
  2. #
  3. # See documentation in:
  4. # https://docs.scrapy.org/en/latest/topics/items.html
  5. import scrapy
  6. class ReadnovelItem(scrapy.Item):
  7. # define the fields for your item here like:
  8. # name = scrapy.Field()
  9. bookTitle = scrapy.Field() #小说名称
  10. bookRemark = scrapy.Field() #小说简介
  11. director = scrapy.Field() #小说作者

2.定义爬虫文件TestNovelspiderSpider.py

需要注意的一点,引入items前,需要使用sys先将items所在目录添加到运行环境,否则在控制台执行爬虫程序时会出现“ ModuleNotFoundError: No module named 'items' ”的报错提示。

  1. import scrapy
  2. from scrapy.selector import Selector
  3. import sys
  4. # print(sys.path) #查看当前python解释器搜索目录
  5. import os
  6. prPath = os.path.dirname(os.path.dirname(__file__))
  7. # print(prPath) #上一级目录 即items所在目录
  8. sys.path.append(prPath) # 将items所在目录添加到运行环境
  9. from items import ReadnovelItem
  10. import re
  11. class TestNovelspiderSpider(scrapy.Spider):
  12. name = "testNovelSpider"
  13. # 爬取域名
  14. allowed_domains = ["readnovel.com"]
  15. # 爬取页面
  16. start_urls = ["https://readnovel.com"]
  17. def parse(self, response):
  18. print("开始爬取....")
  19. # 获取要元素的上一级集合
  20. selector = response.xpath('//div[@class="type-new-list cf"]/ul/li').extract()
  21. items = []
  22. # 遍历所有对象
  23. for book in selector:
  24. # print(book)
  25. # 用正则表达式匹配从当前book对象中获取到小说名称字符串
  26. bookTitle = re.findall('<a href="/book/.*?" data-eid=".*?" data-bid=".*?" target="_blank" title=".*?</a>', book)[0]
  27. # 从获取的小说名称字符串中截取出中文
  28. bookTitle = bookTitle.split("title=")[1].split("\"")[1]
  29. print("小说名:" + bookTitle)
  30. # 用正则表达式匹配从当前book对象中获取到小说名简介
  31. bookRemark = re.findall('<p>.*?</p>', book)[0]
  32. bookRemark = bookRemark.split("<p>")[1].split("</p>")[0]
  33. print("小说备注:"+bookRemark)
  34. # 使用Selector选择器,定位到指定<a>并获取text的文本为小说作者
  35. director = Selector(text=book).xpath('//a[@class="author default"]/text()').extract()[0];
  36. print("小说作者:"+director+"\r\n")
  37. item = ReadnovelItem()
  38. item['bookTitle'] = bookTitle
  39. item['bookRemark'] = bookRemark
  40. item['director'] = director
  41. items.append(item)
  42. # print(items)
  43. return items

以下对上述代码进行说明。

打开并右击页面查看源代码,查找其中一个小说名称可以看到代码段。

使用xpath获取到上一级的集合成员,然后遍历取出每个成员做处理。

response.xpath('//div[@class="type-new-list cf"]/ul/li').extract()

使用re.findall 结合正则表达式抓取模板,“.*?”代表可以匹配所有字符,用于代替名称可变的部分,获取到小说名称。

re.findall('<a href="/book/.*?" data-eid=".*?" data-bid=".*?" target="_blank" title=".*?</a>', book)[0]

同理下列取出小说备注、小说作者。

3.定义结果处理文件pipelines.py

将爬取到的各成员内容输出到文本txt中

  1. # Define your item pipelines here
  2. #
  3. # Don't forget to add your pipeline to the ITEM_PIPELINES setting
  4. # See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
  5. # useful for handling different item types with a single interface
  6. from itemadapter import ItemAdapter
  7. import codecs
  8. import time
  9. class ReadnovelPipeline(object):
  10. def process_item(self, item, spider):
  11. today = time.strftime('%Y-%m-%d', time.localtime())
  12. fileName = '小说阅读网' + today + '.txt'
  13. print('准备写入内容:')
  14. print(item)
  15. with codecs.open(fileName, 'ab+', 'utf-8') as fp:
  16. fp.write('小说名称:'+item['bookTitle']+'\r\n')
  17. fp.write('小说内容:' + item['bookRemark']+'\r\n')
  18. fp.write('小说作者:' + item['director']+'\r\n\r\n')
  19. # return item

4.调整配置文件settings.py

打开settings.py,添加以下内容,将pipelines的处理文件与爬虫目录下的文件进行关联

  1. BOT_NAME = "readNovel"
  2. SPIDER_MODULES = ["readNovel.spiders"]
  3. NEWSPIDER_MODULE = "readNovel.spiders"
  4. ITEM_PIPELINES = {'readNovel.pipelines.ReadnovelPipeline': 300}
'
运行

5.运行程序

在终端控制台执行命令

scrapy crawl testNovelSpider

当前目录会生成txt文件,打开查看内容如下。

以上演示程序爬取小说推荐列表并输出到文件成功。

如果文章解决了你的问题,欢迎点赞、收藏或评论。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/792204
推荐阅读
相关标签
  

闽ICP备14008679号