当前位置:   article > 正文

零代码爬虫——Web Scraper入门_move developer tools to the bottom of your browser

move developer tools to the bottom of your browser to start using web scrape

简介

Web Scraper 旨在让每个人都能轻松爬取Web数据,而无需编程。
在这里插入图片描述




缺点

  1. 无法进行复杂爬取




安装

任意选择:

推荐阅读:Chrome插件安装方法




初试

  1. 百度任意搜索关键词
  2. F12 开发者工具 → Web Scraper
    在这里插入图片描述
  3. 创建站点:Create new sitemapCreate Sitemap
    在这里插入图片描述
  4. 添加选择器:Add new selector → Id 任意 → 选中 Multiple → Select → 在页面上点击爬取目标,多点几个让浮动框内容变简单 → Done selecting!Element previewData preview 预览查看是否想要的数据 → Save selector
    在这里插入图片描述
  5. 爬取内容&导出数据:Sitemap xxxScrapeStart scraping → 弹出页面等待爬取完毕 → Sitemap xxxExport data as CSV
    在这里插入图片描述




跳转

  1. 创建站点:测试商品页面
    在这里插入图片描述

  2. 一级菜单:Id 填 category-link → Type 设为 Link → 选中 Multiple
    在这里插入图片描述

  3. 二级菜单:点进子节点 → Id 填 subcategory-link → Type 设为 Link → 选中 Multiple
    在这里插入图片描述

  4. 商品链接:点进 Laptops → 点进子节点 → Add new selector → Id 填 product-link → Type 设为 Link → 选中 Multiple → Select
    在这里插入图片描述

  5. 爬取内容:任意进入一商品 → 点进子节点 → Id 填 title → Type 设为 Text → 不选 Multiple。类似添加 price
    在这里插入图片描述

  6. 查看选择器树状图:Sitemap xxx → Selector graph
    在这里插入图片描述

  7. 爬取 Scrape → 爬取过程中点 Refresh 可查看爬到的数据
    在这里插入图片描述




滚动

此方法适合滚动页面,需要AJAX加载的数据爬取。

  1. 创建站点:知乎精华帖
  2. 创建容器:Id 填 container → Type 设为 Element scroll down → 选中 Multiple → Delay 设为 2000
    控制为100条,在 Selector 后加上 :nth-of-type(-n+100)。若不设,将无限爬取直到无法再滚动。手动关闭亦可停止爬取。
    在这里插入图片描述
  3. 爬取内容:点进子节点 → Id 填 title → Type 设为 Text → 不选 Multiple。类似添加 likecomment

PS:

  • 爬完才能 Refresh 看到数据
  • 若有多层嵌套结构,可以直接用CSS选择器,不用多次构建 Element
  • 爬取标题为 null ,可将 Selector 换成 .ContentItem-title
    在这里插入图片描述




加载按钮

  1. 创建站点:商品加载页
  2. 创建点击元素:Id 填 product-wrapper → Selector 选为要爬取的对象 → Type 设为 Element click → Click selector 选为加载按钮 → Click type 选为 Click more → 选中 Multiple → Delay 设为 2000
    在这里插入图片描述
  3. 效果
    在这里插入图片描述




选择器技巧

测试商品页面

  1. S:Select,选择元素
  2. P:Parent,选择父节点元素
  3. C:Child,选择子节点元素
    在这里插入图片描述




分页

跳转分页测试页面动态加载测试页面

  • 抓取前50个网页:https://www.xxx.com/book/[1-50]
  • 间隔为25:https://www.xxx.com/book/[0-50:25]
  • 跳转分页:选择器为 Link,并设置多个启动项
  • 动态加载:选择器为 Element Click

跳转分页

跳转分页测试页面

  1. 创建分页链接:Id 填 pagination → Selector 选为页码 → Type 设为 Link → Parent Selectors 多选
    在这里插入图片描述
  2. 创建商品链接:Id 填 link → Selector 选为商品 → Type 设为 Link → Parent Selectors 多选
    在这里插入图片描述
  3. 选择器示意图,爬虫会智能对分页去重访问
    在这里插入图片描述
  4. 效果
    在这里插入图片描述



动态加载

适合分页时动态加载的页面,Url 不变,页面不会刷新

  1. 创建分页点击元素:Id 填 click-pagination → Selector 选为商品 → Type 设为 Element click → Click selector 选为页码 → Click type 为 Click once → Discard initial elements 为 Discard when click element exists → Delay 设为 2000
    在这里插入图片描述
  2. 创建商品链接:点进子节点 → Id 填 link → Type 设为 link → Selector 选为商品 → 不选 Multiple
    在这里插入图片描述
  3. 效果
    在这里插入图片描述




推荐观看:Web Scraper 官方教程 #3 —— 分页处理




备注

  1. Move developer tools to the bottom of your browser to start using Web Scraper.
    把开发者工具拖长 或 点右上角三个点并置于底部
    在这里插入图片描述
  2. Web Scraper 使用 CSS选择器
    推荐阅读:CSS 选择器参考手册




参考文献

  1. Web Scraper 官网
  2. Web Scraper 文档
  3. Web Scraper 测试页面
  4. Web Scraper 官方教程 #1 —— 快速上手
  5. Web Scraper 官方教程 #2 —— 多记录提取
  6. Web Scraper 官方教程 #3 —— 分页处理
  7. 数据抓取II-进阶
  8. Web Scraper 简易教程01
  9. Web Scraper 简易教程02
  10. Web Scraper 简易教程03
  11. Web Scraper 简易教程04
  12. Web Scraper 简易教程05
  13. CSS 选择器参考手册
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/976903
推荐阅读
相关标签
  

闽ICP备14008679号