赞
踩
虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘。有能人改变了scrapy的队列调度,将起始的网址从start_urls里分离出来,改为从redis读取,多个客户端可以同时读取同一个redis,从而实现了分布式的爬虫。就算在同一台电脑上,也可以多进程的运行爬虫,在大规模抓取的过程中非常有效。
多了一个redis组件,主要影响两个地方:第一个是调度器。第二个是数据的处理。
Scrapy-Redis分布式策略。
作为一个分布式爬虫,是需要有一个Master端(核心服务器)的,在Master端,会搭建一个Redis数据库,用来存储start_urls、request、items。Master的职责是负责url指纹判重,Request的分配,以及数据的存储(一般在Master端会安装一个mongodb用来存储redis中的items)。出了Master之外,还有一个角色就是slaver(爬虫程序执行端),它主要负责执行爬虫程序爬取数据,并将爬取过程中新的Request提交到Master的redis数据库中。
如上图,假设我们有四台电脑:A, B, C, D ,其中任意一台电脑都可以作为 Master端 或 Slaver端。整个流程是:
首先Slaver端从Master端拿任务(Request、url)进行数据抓取,Slaver抓取数据的同时,产生新任务的Request便提交给 Master 处理;
Master端只有一个Redis数据库,负责将未处理的Request去重和任务分配,将处理后的Request加入待爬队列,并且存储爬取的数据。
Scrapy-Redis默认使用的就是这种策略,我们实现起来很简单,因为任务调度等工作Scrapy-Redis都已经帮我们做好了,我们只需要继承RedisSpider、指定redis_key就行了。
缺点是,Scrapy-Redis调度的任务是Request对象,里面信息量比较大(不仅包含url,还有callback函数、headers等信息),可能导致的结果就是会降低爬虫速度、而且会占用Redis大量的存储空间,所以如果要保证效率,那么就需要一定硬件水平。
1、windows一台(从:scrapy)
2、linux一台(主:scrapy\redis\mongo)
ip:192.168.184.129
3、python3.6
linux下scrapy的配置步骤:
1、安装python3.6 yum install openssl-devel -y 解决pip3不能使用的问题(pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available) 下载python软件包,Python-3.6.1.tar.xz,解压后 ./configure --prefix=/python3 make make install 加上环境变量: PATH=/python3/bin:$PATH:$HOME/bin export PATH 安装完成后,pip3默认也已经安装完成了(安装前需要先yum gcc) 2、安装Twisted 下载Twisted-17.9.0.tar.bz2,解压后 cd Twisted-17.9.0, python3 setup.py install 3、安装scrapy pip3 install scrapy pip3 install scrapy-redis 4、安装redis 见博文redis安装与简单使用 错误:You need tcl 8.5 or newer in order to run the Redis test 1、wget http://downloads.sourceforge.net/tcl/tcl8.6.1-src.tar.gz 2、tar -xvf tcl8.6.1-src.tar.gz 3、cd tcl8.6.1/unix ; make; make install cp /root/redis-3.2.11/redis.conf /etc/ 启动:/root/redis-3.2.11/src/redis-server /etc/redis.conf & 5、pip3 install redis 6、安装mongodb 启动:# mongod --bind_ip 192.168.184.129 & 7、pip3 install pymongo
windows上scrapy的部署步骤:
1、安装wheel
pip install wheel
2、安装lxml
https://pypi.python.org/pypi/lxml/4.1.0
3、安装pyopenssl
https://pypi.python.org/pypi/pyOpenSSL/17.5.0
4、安装Twisted
https://www.lfd.uci.edu/~gohlke/pythonlibs/
5、安装pywin32
https://sourceforge.net/projects/pywin32/files/
6、安装scrapy
pip install scrapy
以某某天堂的电影爬取为简单例子,说一下分布式的实现,代码linux和windows上各放一份,配置一样,两者可同时运行爬取。
只列出需要修改的地方:
设置爬取数据的存储数据库(mongodb),指纹和queue存储的数据库(redis)
ROBOTSTXT_OBEY = False # 禁止robot
CONCURRENT_REQUESTS = 1 # scrapy调试queue的最大并发,默认16
ITEM_PIPELINES = {
'meiju.pipelines.MongoPipeline': 300,
}
MONGO_URI = '192.168.184.129' # mongodb连接信息
MONGO_DATABASE = 'mj'
SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 使用scrapy_redis的调度
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 在redis库中去重(url)
# REDIS_URL = 'redis://root:kongzhagen@localhost:6379' # 如果redis有密码,使用这个配置
REDIS_HOST = '192.168.184.129' #redisdb连接信息
REDIS_PORT = 6379
SCHEDULER_PERSIST = True # 不清空指纹
存储到MongoDB的代码
import pymongo class MeijuPipeline(object): def process_item(self, item, spider): return item class MongoPipeline(object): collection_name = 'movies' def __init__(self, mongo_uri, mongo_db): self.mongo_uri = mongo_uri self.mongo_db = mongo_db @classmethod def from_crawler(cls, crawler): return cls( mongo_uri=crawler.settings.get('MONGO_URI'), mongo_db=crawler.settings.get('MONGO_DATABASE', 'items') ) def open_spider(self, spider): self.client = pymongo.MongoClient(self.mongo_uri) self.db = self.client[self.mongo_db] def close_spider(self, spider): self.client.close() def process_item(self, item, spider): self.db[self.collection_name].insert_one(dict(item)) return item
数据结构
import scrapy
class MeijuItem(scrapy.Item):
movieName = scrapy.Field()
status = scrapy.Field()
english = scrapy.Field()
alias = scrapy.Field()
tv = scrapy.Field()
year = scrapy.Field()
type = scrapy.Field()
# -*- coding: utf-8 -*- import scrapy from scrapy import Request class MjSpider(scrapy.Spider): name = 'mj' allowed_domains = ['meijutt1.com'] # start_urls = ['http://www.example1.com/file/list1.html'] def start_requests(self): yield Request(url='http://www.example1.com/file/list1.html', callback=self.parse) def parse(self, response): from meiju.items import MeijuItem movies = response.xpath('//div[@class="cn_box2"]') for movie in movies: item = MeijuItem() item['movieName'] = movie.xpath('./ul[@class="list_20"]/li[1]/a/text()').extract_first() item['status'] = movie.xpath('./ul[@class="list_20"]/li[2]/span/font/text()').extract_first() item['english'] = movie.xpath('./ul[@class="list_20"]/li[3]/font[2]/text()').extract_first() item['alias'] = movie.xpath('./ul[@class="list_20"]/li[4]/font[2]/text()').extract_first() item['tv'] = movie.xpath('./ul[@class="list_20"]/li[5]/font[2]/text()').extract_first() item['year'] = movie.xpath('./ul[@class="list_20"]/li[6]/font[2]/text()').extract_first() item['type'] = movie.xpath('./ul[@class="list_20"]/li[7]/font[2]/text()').extract_first() yield item for i in response.xpath('//div[@class="cn_box2"]/ul[@class="list_20"]/li[1]/a/@href').extract(): yield Request(url='http://www.example1.com' + i) # next = 'http://www.example1.com' + response.xpath("//a[contains(.,'下一页')]/@href")[1].extract() # print(next) # yield Request(url=next, callback=self.parse)
在这里插入图片描述
看一下redis中的情况:
看看mongodb中的数据:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。