当前位置:   article > 正文

golang爬虫框架colly简单介绍_golang colly

golang colly

colly一款快速优雅的golang爬虫框架,简单易用,功能完备。

colly 官网地址:http://go-colly.org/

colly github地址:github.com/gocolly/colly

colly 到目前为止有16500个赞

特性

  • 干净的API
  • 快速(单核>1k请求/秒)
  • 管理每个域的请求延迟和最大并发性
  • 自动cookie和会话处理
  • 同步/异步并行抓取
  • 分布式抓取
  • 缓存
  • 非unicode响应的自动编码
  • robots . txt的支持
  • 谷歌应用程序引擎支持

        

示例代码:
 

  1. func main() {
  2. c := colly.NewCollector()
  3. // Find and visit all links
  4. c.OnHTML("a[href]", func(e *colly.HTMLElement) {
  5. e.Request.Visit(e.Attr("href"))
  6. })
  7. c.OnRequest(func(r *colly.Request) {
  8. fmt.Println("Visiting", r.URL)
  9. })
  10. c.Visit("http://go-colly.org/")
  11. }

使用方式概括下来主要有三步:

  1. 创建一个采集器
  2. 注册回调函数
  3. 访问具体网站

创建采集器时可以指定一些配置参数,如useragent,爬取深度及日志等

  1. colly.NewCollector(colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"),
  2. colly.MaxDepth(1),
  3. colly.Debugger(&debug.LogDebugger{}))

回调函数共有7种

名称说明参数1参数2
OnRequest请求前调用*colly.Request
OnError请求发生错误时调用*colly.Responseerror
OnResponseHeaders收到响应头后调用colly.Response
OnResponse收到响应后调用colly.Response
OnHTML响应内容是HTML时调用xpath表达式func(e *colly.HTMLElement)
OnXML响应内容是XML时调用xpath表达式func(e *colly.XMLElement)
OnScraped在OnXML之后调用func(r *colly.Response)

colly,让我相信爬虫除了用python,我们用golang也是一个不错的选择。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/607733
推荐阅读
相关标签
  

闽ICP备14008679号