赞
踩
用scrapy-redis进行分布式爬虫需要连接redis数据库,在settings方法中直接设置
REDIS_URL='redis://127.0.0.1:6379’连接,其他的设置网上有很多教程,
SCHEDULER = “scrapy_redis.scheduler.Scheduler” , DUPEFILTER_CLASS =“scrapy_redis.dupefilter.RFPDupeFilter”, ‘scrapy_redis.pipelines.RedisPipeline’:300但是我的redis数据库设置了密码进去,在pycharm中运行会报错显示auth认证,尝试添加密码设置,但是并没有成功,后来直接将密码给取消了,就可以正常连结数据库。下面给出我取消密码的方式。
其中auth 后面是填入你的数据库密码
‘LPUSH scrapyredis:start_urls http://eu.httpbin.org/ip’这个命令是往数据库中添加url,记住scrapyredis是你的工程中爬虫的name如果没有填写相应的name那么你的spider文件是不会正确识别到这个添加的url,start_urls相对应的是你的spider文件中起始url。
这个name我一直没理清楚所以在这里代码一直跑不通,搞了几个小时,还好在网上找到了解决方法
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。