当前位置:   article > 正文

scrapy框架,scrapy-redis(使scrapy能做分布式)_分布式 用scrapy框架 还是scrapy-redis框架

分布式 用scrapy框架 还是scrapy-redis框架

scrapy框架 scrapy-redis

scrapy框架

1.框架图
在这里插入图片描述
2.组件
在这里插入图片描述

3.开发流程
1、创建一个项目
在这里插入图片描述
2、将scrapy项目放到pycharm,目录结构如下:
在这里插入图片描述
如果不按上面的方式,运行命令会发生找不到命令的情况。

3、创建一个spider
在这里插入图片描述
4、在settings.py中,修改robots协议
在这里插入图片描述
5.在新建好的spider中,初始化start_urls列表,告诉scrapy要下载的网页有哪些?
在这里插入图片描述
6、添加请求,请求头需要在settings.py配置文件中设置。
在这里插入图片描述
7、在spider文件中的parse方法里测试是否能够获取到页面数据。
Scrapy的启动方法:scrapy crawl maoyan_spider
在这里插入图片描述
8.在items.py中,定义我们要爬取的字段是那些。
在这里插入图片描述
9、在parse方法中实例化一个item
在这里插入图片描述
10、从页面提取数据。
在这里插入图片描述
在这里插入图片描述
补充:

  Response.xpath返回的就是一个selector对象,selector					  对象可以继续调用xpath方法提取元素。
  可以通过以下两个方法,从selector对象中获取字符串内容。
  extract_first()--
  • 1
  • 2
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/432977
推荐阅读
相关标签
  

闽ICP备14008679号