赞
踩
从on_start开始调用,
回调至index_page,(.doc)是一个pyquery请求解析函数
.items()是一个pyquery的API
self.crawl会生成一个request
Pyspider基本架构:
1.scheduler :调度器, 调度程序从处理器的newtask_queue接收任务。确定任务是新任务还是需要重新爬网。
2.fetcher:请求器,发送请求;与 phantomjs结合使用,提供两种操作方式
3.processor:解析处理数据,URL则再度返回给scheduler
4.monitor&webui:提供果监视器和webUI界面
(1)CSS Selector Helper:启用Web视图的CSS Selector Helper。它获取您单击的元素的CSS Selector,然后将其添加到您的脚本中。
(2)Web:以浏览器呈现的方式查看页面(近似)
(3)html:查看当前回调的HTML(index_page,detail_page等)
(4)follows:
查看可以从当前回调中进行的回调。
index_page跟随视图将显示可以执行的detail_page回调。
(5)messages:
显示self.send_messageAPI 发送的消息。
(注意:
1.学会查看官方文档
2.查看视频教程
3.实际操作
4.实时笔记,错误记录,报错整理,博客记录)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。