当前位置:   article > 正文

常用python爬虫框架整理

centos portia

Python中好用的爬虫框架

一般比价小型的爬虫需求,我是直接使用requests库 + bs4就解决了,再麻烦点就使用selenium解决js的异步 加载问题。相对比较大型的需求才使用框架,主要是便于管理以及扩展等。

1.Scrapy

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

特性:

  • HTML, XML源数据 选择及提取 的内置支持
  • 提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders),对智能处理爬取数据提供了内置支持。
  • 通过 feed导出 提供了多格式(JSON、CSV、XML),多存储后端(FTP、S3、本地文件系统)的内置支持
  • 提供了media pipeline,可以 自动下载 爬取到的数据中的图片(或者其他资源)。
  • 高扩展性。您可以通过使用 signals ,设计好的API(中间件, extensions, pipelines)来定制实现您的功能。
    • 内置的中间件及扩展为下列功能提供了支持:
    • cookies and session 处理
    • HTTP 压缩
    • HTTP 认证
    • HTTP 缓存
    • user-agent模拟
    • robots.txt
    • 爬取深度限制
    • 其他
  • 针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。
  • 支持根据模板生成爬虫。在加速爬虫创建的同时,保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。
  • 针对多爬虫下性能评估、失败检测,提供了可扩展的 状态收集工具 。
  • 提供 交互式shell终端 , 为您测试XPath表达式,编写和调试爬虫提供了极大的方便
  • 提供 System service, 简化在生产环境的部署及运行
  • 内置 Web service, 使您可以监视及控制您的机器
  • 内置 Telnet终端 ,通过在Scrapy进程中钩入Python终端,使您可以查看并且调试爬虫
  • Logging 为您在爬取过程中捕捉错误提供了方便
  • 支持 Sitemaps 爬取
  • 具有缓存的DNS解析器

快速入门

安装

pip install scrapy

创建项目

  1. scrapy startproject tutorial
  2. ls
  3. tutorial/
  4. scrapy.cfg
  5. tutorial/
  6. __init__.py
  7. items.py
  8. pipelines.py
  9. settings.py
  10. spiders/
  11. __init__.py
  12. ...

写爬虫

  1. import scrapy
  2. class DmozSpider(scrapy.Spider):
  3. name = "dmoz"
  4. allowed_domains = ["dmoz.org"]
  5. start_urls = [
  6. "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
  7. "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
  8. ]
  9. def parse(self, response):
  10. filename = response.url.split("/")[-2]
  11. with open(filename, 'wb') as f:
  12. f.write(response.body)

运行

scrapy crawl dmoz

这里就简单介绍一下,后面有时间详细写一些关于scrapy的文章,我的很多爬虫的数据都是scrapy基础上实现的。

项目地址:https://scrapy.org/

2.PySpider

PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。


image.png
  • python 脚本控制,可以用任何你喜欢的html解析包(内置 pyquery)
  • WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出
  • 数据存储支持MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL 及 SQLAlchemy
  • 队列服务支持RabbitMQ, Beanstalk, Redis 和 Kombu
  • 支持抓取 JavaScript 的页面
  • 组件可替换,支持单机/分布式部署,支持 Docker 部署
  • 强大的调度控制,支持超时重爬及优先级设置
  • 支持python2&3

示例

代开web界面的编辑输入代码即可

  1. from pyspider.libs.base_handler import *
  2. class Handler(BaseHandler):
  3. crawl_config = {
  4. }
  5. @every(minutes=24 * 60)
  6. def on_start(self):
  7. self.crawl('http://scrapy.org/', callback=self.index_page)
  8. @config(age=10 * 24 * 60 * 60)
  9. def index_page(self, response):
  10. for each in response.doc('a[href^="http"]').items():
  11. self.crawl(each.attr.href, callback=self.detail_page)
  12. def detail_page(self, response):
  13. return {
  14. "url": response.url,
  15. "title": response.doc('title').text(),
  16. }

项目地址:https://github.com/binux/pyspider

3.Crawley

Crawley可以高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。

创建project

  1. ~$ crawley startproject [project_name]
  2. ~$ cd [project_name]

定义models

  1. """ models.py """
  2. from crawley.persistance import Entity, UrlEntity, Field, Unicode
  3. class Package(Entity):
  4. #add your table fields here
  5. updated = Field(Unicode(255))
  6. package = Field(Unicode(255))
  7. description = Field(Unicode(255))

写爬虫逻辑

  1. """ crawlers.py """
  2. from crawley.crawlers import BaseCrawler
  3. from crawley.scrapers import BaseScraper
  4. from crawley.extractors import XPathExtractor
  5. from models import *
  6. class pypiScraper(BaseScraper):
  7. #specify the urls that can be scraped by this class
  8. matching_urls = ["%"]
  9. def scrape(self, response):
  10. #getting the current document's url.
  11. current_url = response.url
  12. #getting the html table.
  13. table = response.html.xpath("/html/body/div[5]/div/div/div[3]/table")[0]
  14. #for rows 1 to n-1
  15. for tr in table[1:-1]:
  16. #obtaining the searched html inside the rows
  17. td_updated = tr[0]
  18. td_package = tr[1]
  19. package_link = td_package[0]
  20. td_description = tr[2]
  21. #storing data in Packages table
  22. Package(updated=td_updated.text, package=package_link.text, description=td_description.text)
  23. class pypiCrawler(BaseCrawler):
  24. #add your starting urls here
  25. start_urls = ["http://pypi.python.org/pypi"]
  26. #add your scraper classes here
  27. scrapers = [pypiScraper]
  28. #specify you maximum crawling depth level
  29. max_depth = 0
  30. #select your favourite HTML parsing tool
  31. extractor = XPathExtractor

配置

  1. """ settings.py """
  2. import os
  3. PATH = os.path.dirname(os.path.abspath(__file__))
  4. #Don't change this if you don't have renamed the project
  5. PROJECT_NAME = "pypi"
  6. PROJECT_ROOT = os.path.join(PATH, PROJECT_NAME)
  7. DATABASE_ENGINE = 'sqlite'
  8. DATABASE_NAME = 'pypi'
  9. DATABASE_USER = ''
  10. DATABASE_PASSWORD = ''
  11. DATABASE_HOST = ''
  12. DATABASE_PORT = ''
  13. SHOW_DEBUG_INFO = True

运行

~$ crawley run

项目地址:http://project.crawley-cloud.com/

4.Portia

Portia是一个开源可视化爬虫工具,可让您在不需要任何编程知识的情况下爬取网站!简单地注释您感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据。
这个使用时超级简单,你们可以看一下文档。http://portia.readthedocs.io/en/latest/index.html

  • 基于 scrapy 内核
  • 可视化爬取内容,不需要任何开发专业知识
  • 动态匹配相同模板的内容

项目地址:https://github.com/scrapinghub/portia

5.Newspaper

Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。作者从requests库的简洁与强大得到灵感,使用python开发的可用于提取文章内容的程序。
支持10多种语言并且所有的都是unicode编码。

示例

  1. >>> from newspaper import Article
  2. >>> url = 'http://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/'
  3. >>> article = Article(url)
  4. >>> article.download()
  5. >>> article.html
  6. '<!DOCTYPE HTML><html itemscope itemtype="http://...'
  7. >>> article.parse()
  8. >>> article.authors
  9. ['Leigh Ann Caldwell', 'John Honway']
  10. >>> article.publish_date
  11. datetime.datetime(2013, 12, 30, 0, 0)
  12. >>> article.text
  13. 'Washington (CNN) -- Not everyone subscribes to a New Year's resolution...'
  14. >>> article.top_image
  15. 'http://someCDN.com/blah/blah/blah/file.png'
  16. >>> article.movies
  17. ['http://youtube.com/path/to/link.com', ...]
  18. >>> article.nlp()
  19. >>> article.keywords
  20. ['New Years', 'resolution', ...]
  21. >>> article.summary
  22. 'The study shows that 93% of people ...'

项目地址:https://github.com/codelucas/newspaper

6.Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。这个我是使用的特别频繁的。在获取html元素,都是bs4完成的。


示例

  1. # -*- coding: utf-8 -*-
  2. import scrapy
  3. from bs4 import BeautifulSoup
  4. from urllib.parse import urljoin
  5. from six.moves import urllib
  6. DOMAIN = 'http://flagpedia.asia'
  7. class FlagSpider(scrapy.Spider):
  8. name = 'flag'
  9. allowed_domains = ['flagpedia.asia', 'flags.fmcdn.net']
  10. start_urls = ['http://flagpedia.asia/index']
  11. def parse(self, response):
  12. html_doc = response.body
  13. soup = BeautifulSoup(html_doc, 'html.parser')
  14. a = soup.findAll('td', class_="td-flag")
  15. for i in a:
  16. url = i.a.attrs.get("href")
  17. full_url = urljoin(DOMAIN, url)
  18. yield scrapy.Request(full_url, callback=self.parse_news)
  19. def parse_news(self, response):
  20. html_doc = response.body
  21. soup = BeautifulSoup(html_doc, 'html.parser')
  22. p = soup.find("p", id="flag-detail")
  23. img_url = p.img.attrs.get("srcset").split(" 2x")[0]
  24. url = "http:" + img_url
  25. img_name = img_url.split("/")[-1]
  26. urllib.request.urlretrieve(url, "/Users/youdi/Project/python/Rino_nakasone_backend/RinoNakasone/flag/{}".format(img_name))
  27. print(url)

项目地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

7.Grab

Grab是一个用于构建Web刮板的Python框架。借助Grab,您可以构建各种复杂的网页抓取工具,从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容,例如与HTML文档的DOM树进行交互。

项目地址:http://docs.grablib.org/en/latest/#grab-spider-user-manual

8.Cola

Cola是一个分布式的爬虫框架,对于用户来说,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。

项目地址:https://github.com/chineking/cola

9.selenium

Selenium 是自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果在这些浏览器里面安装一个 Selenium 的插件,可以方便地实现Web界面的测试. Selenium 支持浏览器驱动。Selenium支持多种语言开发,比如 Java,C,Ruby等等,PhantomJS 用来渲染解析JS,Selenium 用来驱动以及与 Python 的对接,Python 进行后期的处理。

示例:

  1. from selenium import webdriver
  2. from selenium.webdriver.common.keys import Keys
  3. browser = webdriver.Firefox()
  4. browser.get('http://www.yahoo.com')
  5. assert 'Yahoo' in browser.title
  6. elem = browser.find_element_by_name('p') # Find the search box
  7. elem.send_keys('seleniumhq' + Keys.RETURN)
  8. browser.quit()

项目地址:http://seleniumhq.github.io/selenium/docs/api/py/

10 .Python-goose框架

Python-goose框架可提取的信息包括:

  • 文章主体内容
  • 文章主要图片
  • 文章中嵌入的任何Youtube/Vimeo视频
  • 元描述
  • 元标签

用法示例

  1. >>> from goose import Goose
  2. >>> url = 'http://edition.cnn.com/2012/02/22/world/europe/uk-occupy-london/index.html?hpt=ieu_c2'
  3. >>> g = Goose()
  4. >>> article = g.extract(url=url)
  5. >>> article.title
  6. u'Occupy London loses eviction fight'
  7. >>> article.meta_description
  8. "Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoid eviction Wednesday in a decision made by London's Court of Appeal."
  9. >>> article.cleaned_text[:150]
  10. (CNN) -- Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoi
  11. >>> article.top_image.src
  12. http://i2.cdn.turner.com/cnn/dam/assets/111017024308-occupy-london-st-paul-s-cathedral-story-top.jpg

项目地址:https://github.com/grangier/python-goose

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/954786
推荐阅读
相关标签
  

闽ICP备14008679号