当前位置: article > 正文

爬虫框架pyspider - 快速上手_pyspiter

作者：繁依Fanyi0 | 2024-08-09 19:39:02

踩

pyspiter

爬虫框架pyspider - 快速上手

pyspider是国人开发的一款灵活便捷的爬虫框架, 相较于Scrapy框架来说, pyspider更适合被用于中小规模的爬取工作

了解更多: 爬虫框架pyspider个人总结（详细）熟悉

安装说明

pyspider

使用命令安装: pip install pyspider

使用 Ubuntu 安装时需要先装依赖包

(升级pip后执行命令)
sudo apt-get install libssl-dev libcur14-openssl-dev python-dev
sudo apt-get install libxml2-dev libxslt1-dev python-dev
1
2
3

安装报错或运行错误请参考文章: pyspider 收纳一些常见问题

如需使用国内的pip源请参考: 更换pip源到国内镜像

phantomjs

安装phantomjs请参考: phantomjs下载安装与使用

快速上手

安装之后先验证是否可以正常使用

打开控制台, cd到你要创建的项目路径
输入pyspider或pyspider all

当看到如下信息时说明pyspider启动成功

(base) D:\pyspider_test\test1>pyspider
c:\users\zh\anaconda3\lib\site-packages\pyspider\libs\utils.py:196: FutureWarning: timeout is not supported on your platform.
  warnings.warn("timeout is not supported on your platform.", Future
Warning)
[I 191030 19:27:06 result_worker:49] result_worker starting...
[I 191030 19:27:06 processor:211] processor starting...
[I 191030 19:27:06 tornado_fetcher:638] fetcher starting...
[I 191030 19:27:06 scheduler:647] scheduler starting...
[I 191030 19:27:06 scheduler:782] scheduler.xmlrpc listening on 127.
0.0.1:23333
[I 191030 19:27:06 scheduler:126] project douban_top250 updated, sta
tus:TODO, paused:False, 0 tasks
[I 191030 19:27:06 scheduler:586] in 5m: new:0,success:0,retry:0,fai
led:0
[I 191030 19:27:07 app:76] webui running on 0.0.0.0:5000
phantomjs fetcher running on port 25555

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

如果失败请参考: https://blog.csdn.net/makesomethings/article/details/102787469

打开浏览器, 访问http://localhost:5000/, 进入pyspider控制台
点击Create, 输入项目名(Project Name)和要爬取的目标网站(Start URL(s))
你将会看到这样一个页面:
代码区没有自动补全功能, 你可以在pycharm上写好粘过来, 再进行调试, 以www.baidu.com为例
调试好之后, 回退到主页面, 将状态改为DEBUG就可以运行爬取工作了
你可以通过把鼠标放到progress中的4个进度条上以查看执行状态详情, 当all变成纯绿色, 就代表爬虫执行完毕
点击Results, 可以查看你爬取到的内容

删除项目

第一种方法，将目标项目的status改成STOP，然后点击[group]，输入delete，如图，
在这里插入图片描述
pyspider会在24H后自动删掉这个项目

第二种方法，到你创建项目的文件夹，删除data文件夹，就会删除当前文件夹中所有的项目

参考文章

pyspider英语手册：http://docs.pyspider.org/

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/954824