当前位置:   article > 正文

爬虫开发入门:使用 Pyspider 框架开发爬虫

pyspider爬虫框架 入门教程

使用 pyspider 作为爬虫入门框架要比直接用 Scrapy 容易太多,如果你需要快速爬取一个网站,pyspider 爬虫框架是最佳选择之一

pyspider 框架具有以下优点

  • 有 Web 界面用于开发爬虫,任务、项目管理,查看爬取结果
  • 支持各种数据库(MySQL、MongoDB、SQLite 等)存储爬取结果
  • 可以方便设置任务优先级,重新爬取策略
  • 支持单机与分布式部署
  • 支持 PhantomJS 爬取动态网页

本 Chat 从建立开发环境开始,然后开始实战爬取数据,需要具备以下能力:

  • Python 编程能力
  • 了解 HTML、CSS、JavaScript
  • 了解 jQuery CSS Selector

学习完成本 Chat 以后,你可以:

  • 搭建自己的爬虫开发环境
  • 开发一些简单的爬虫

dashboard.png

pyspider 是一个简单好用的爬虫框架,项目地址:https://github.com/binux/pyspider

相对于 Scrapy 框架来说, pyspider 具有以下优点:

  • 有 Web 界面用于开发爬虫,任务、项目管理,查看爬取结果;
  • 支持各种数据库(MySQL、MongoDB、SQLite 等)存储爬取结果;
  • 可以方便设置任务优先级,重新爬取策略;
  • 支持单机与分布式部署;
  • 支持 PhantomJS 爬取动态网页。

如果你需要快速爬取一个网站的数据,使用 pyspider 可以事半功倍。就如同设计产品需要先画一个草图一样,先用 pyspider 开发爬虫可以尽快体验项目中可能遇到的问题,开发完成以后,可以再迁移到更为高级的框架如 Scrapy。

如果没有 Python 开发环境,请先安装:

  • Windows 10:安装 Anaconda Python 3
  • Linux:apt install python3 python3-pip 或者 yum install -y python36 python36-pip
  • macOS:brew install python3

笔者不建议使用 Windows 学习 Python 开发,因为有无穷多的坑需要踩,各种问题层出不穷。强烈推荐安装一个 Linux 虚拟机来学习 Python 爬虫开发。

以下安装步骤使用 Ubuntu 18.04 测试通过,如果你实在坚持要用 Windows 环境,那只能表示佩服了。

下面我们来安装 pyspider,安装步骤:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/954864
推荐阅读
相关标签
  

闽ICP备14008679号