赞
踩
pyspider是国人开发的一款灵活便捷的爬虫框架, 相较于Scrapy框架来说, pyspider更适合被用于中小规模的爬取工作
了解更多: 爬虫框架pyspider个人总结(详细)熟悉
使用命令安装: pip install pyspider
使用 Ubuntu 安装时需要先装依赖包
(升级pip后执行命令)
sudo apt-get install libssl-dev libcur14-openssl-dev python-dev
sudo apt-get install libxml2-dev libxslt1-dev python-dev
安装报错或运行错误请参考文章: pyspider 收纳一些常见问题
如需使用国内的pip源请参考: 更换pip源到国内镜像
安装phantomjs请参考: phantomjs下载安装与使用
安装之后先验证是否可以正常使用
打开控制台, cd到你要创建的项目路径
输入pyspider
或pyspider all
当看到如下信息时说明pyspider启动成功
(base) D:\pyspider_test\test1>pyspider c:\users\zh\anaconda3\lib\site-packages\pyspider\libs\utils.py:196: FutureWarning: timeout is not supported on your platform. warnings.warn("timeout is not supported on your platform.", Future Warning) [I 191030 19:27:06 result_worker:49] result_worker starting... [I 191030 19:27:06 processor:211] processor starting... [I 191030 19:27:06 tornado_fetcher:638] fetcher starting... [I 191030 19:27:06 scheduler:647] scheduler starting... [I 191030 19:27:06 scheduler:782] scheduler.xmlrpc listening on 127. 0.0.1:23333 [I 191030 19:27:06 scheduler:126] project douban_top250 updated, sta tus:TODO, paused:False, 0 tasks [I 191030 19:27:06 scheduler:586] in 5m: new:0,success:0,retry:0,fai led:0 [I 191030 19:27:07 app:76] webui running on 0.0.0.0:5000 phantomjs fetcher running on port 25555
如果失败请参考: https://blog.csdn.net/makesomethings/article/details/102787469
打开浏览器, 访问http://localhost:5000/, 进入pyspider控制台
点击Create
, 输入项目名(Project Name)和要爬取的目标网站(Start URL(s))
你将会看到这样一个页面:
代码区没有自动补全功能, 你可以在pycharm上写好粘过来, 再进行调试, 以www.baidu.com为例
调试好之后, 回退到主页面, 将状态改为DEBUG
就可以运行爬取工作了
你可以通过把鼠标放到progress
中的4个进度条上以查看执行状态详情, 当all
变成纯绿色, 就代表爬虫执行完毕
点击Results
, 可以查看你爬取到的内容
第一种方法,将目标项目的status改成STOP
,然后点击[group]
,输入delete,如图,
pyspider会在24H后自动删掉这个项目
第二种方法,到你创建项目的文件夹,删除data
文件夹,就会删除当前文件夹中所有的项目
pyspider英语手册:http://docs.pyspider.org/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。