当前位置:   article > 正文

PySpider基本架构一般了解_pyspider 底层框架

pyspider 底层框架

在这里插入图片描述
从on_start开始调用,
回调至index_page,(.doc)是一个pyquery请求解析函数
.items()是一个pyquery的API
self.crawl会生成一个request

Pyspider基本架构:
在这里插入图片描述
1.scheduler :调度器, 调度程序从处理器的newtask_queue接收任务。确定任务是新任务还是需要重新爬网。
2.fetcher:请求器,发送请求;与 phantomjs结合使用,提供两种操作方式

3.processor:解析处理数据,URL则再度返回给scheduler
4.monitor&webui:提供果监视器和webUI界面

(1)CSS Selector Helper:启用Web视图的CSS Selector Helper。它获取您单击的元素的CSS Selector,然后将其添加到您的脚本中。
(2)Web:以浏览器呈现的方式查看页面(近似)
(3)html:查看当前回调的HTML(index_page,detail_page等)
(4)follows:
查看可以从当前回调中进行的回调。
index_page跟随视图将显示可以执行的detail_page回调。

(5)messages:
显示self.send_messageAPI 发送的消息。

(注意:
1.学会查看官方文档
2.查看视频教程
3.实际操作
4.实时笔记,错误记录,报错整理,博客记录)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/954892
推荐阅读
相关标签
  

闽ICP备14008679号