正经夜光杯

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

零代码爬虫——Web Scraper入门_move developer tools to the bottom of your browser

作者：正经夜光杯 | 2024-08-13 23:26:02

赞

踩

move developer tools to the bottom of your browser to start using web scrape

文章目录

简介
缺点
安装
初试
跳转
滚动
加载按钮
选择器技巧
分页
- 跳转分页
- 动态加载
备注
参考文献

简介

Web Scraper 旨在让每个人都能轻松爬取Web数据，而无需编程。
在这里插入图片描述

缺点

无法进行复杂爬取

安装

任意选择：

推荐阅读：Chrome插件安装方法

初试

百度任意搜索关键词
F12 开发者工具 → Web Scraper
创建站点：Create new sitemap → Create Sitemap
添加选择器：Add new selector → Id 任意 → 选中 Multiple → Select → 在页面上点击爬取目标，多点几个让浮动框内容变简单 → Done selecting! → Element preview 或 Data preview 预览查看是否想要的数据 → Save selector
爬取内容&导出数据：Sitemap xxx → Scrape → Start scraping → 弹出页面等待爬取完毕 → Sitemap xxx → Export data as CSV

跳转

创建站点：测试商品页面
一级菜单：Id 填 category-link → Type 设为 Link → 选中 Multiple
二级菜单：点进子节点 → Id 填 subcategory-link → Type 设为 Link → 选中 Multiple
商品链接：点进 Laptops → 点进子节点 → Add new selector → Id 填 product-link → Type 设为 Link → 选中 Multiple → Select
爬取内容：任意进入一商品 → 点进子节点 → Id 填 title → Type 设为 Text → 不选 Multiple。类似添加 price
查看选择器树状图：Sitemap xxx → Selector graph
爬取 Scrape → 爬取过程中点 Refresh 可查看爬到的数据

滚动

此方法适合滚动页面，需要AJAX加载的数据爬取。

创建站点：知乎精华帖
创建容器：Id 填 container → Type 设为 Element scroll down → 选中 Multiple → Delay 设为 2000
控制为100条，在 Selector 后加上 :nth-of-type(-n+100)。若不设，将无限爬取直到无法再滚动。手动关闭亦可停止爬取。
爬取内容：点进子节点 → Id 填 title → Type 设为 Text → 不选 Multiple。类似添加 like、comment等

PS：

爬完才能 Refresh 看到数据
若有多层嵌套结构，可以直接用CSS选择器，不用多次构建 Element
爬取标题为 null ，可将 Selector 换成 .ContentItem-title

加载按钮

创建站点：商品加载页
创建点击元素：Id 填 product-wrapper → Selector 选为要爬取的对象 → Type 设为 Element click → Click selector 选为加载按钮 → Click type 选为 Click more → 选中 Multiple → Delay 设为 2000
效果

选择器技巧

测试商品页面

S：Select，选择元素
P：Parent，选择父节点元素
C：Child，选择子节点元素

分页

跳转分页测试页面和动态加载测试页面

抓取前50个网页：https://www.xxx.com/book/[1-50]
间隔为25：https://www.xxx.com/book/[0-50:25]
跳转分页：选择器为 Link，并设置多个启动项
动态加载：选择器为 Element Click

跳转分页

跳转分页测试页面

创建分页链接：Id 填 pagination → Selector 选为页码 → Type 设为 Link → Parent Selectors 多选
创建商品链接：Id 填 link → Selector 选为商品 → Type 设为 Link → Parent Selectors 多选
选择器示意图，爬虫会智能对分页去重访问
效果

动态加载

适合分页时动态加载的页面，Url 不变，页面不会刷新

创建分页点击元素：Id 填 click-pagination → Selector 选为商品 → Type 设为 Element click → Click selector 选为页码 → Click type 为 Click once → Discard initial elements 为 Discard when click element exists → Delay 设为 2000
创建商品链接：点进子节点 → Id 填 link → Type 设为 link → Selector 选为商品 → 不选 Multiple
效果

推荐观看：Web Scraper 官方教程 #3 —— 分页处理

备注

Move developer tools to the bottom of your browser to start using Web Scraper.
把开发者工具拖长或点右上角三个点并置于底部
Web Scraper 使用 CSS选择器
推荐阅读：CSS 选择器参考手册

参考文献

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/976903

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号