赞
踩
Web Scraper 旨在让每个人都能轻松爬取Web数据,而无需编程。
任意选择:
推荐阅读:Chrome插件安装方法
创建站点:测试商品页面
一级菜单:Id 填 category-link
→ Type 设为 Link
→ 选中 Multiple
二级菜单:点进子节点 → Id 填 subcategory-link
→ Type 设为 Link
→ 选中 Multiple
商品链接:点进 Laptops → 点进子节点 → Add new selector → Id 填 product-link
→ Type 设为 Link
→ 选中 Multiple → Select
爬取内容:任意进入一商品 → 点进子节点 → Id 填 title
→ Type 设为 Text
→ 不选 Multiple。类似添加 price
查看选择器树状图:Sitemap xxx → Selector graph
爬取 Scrape → 爬取过程中点 Refresh 可查看爬到的数据
此方法适合滚动页面,需要AJAX加载的数据爬取。
container
→ Type 设为 Element scroll down
→ 选中 Multiple → Delay 设为 2000:nth-of-type(-n+100)
。若不设,将无限爬取直到无法再滚动。手动关闭亦可停止爬取。title
→ Type 设为 Text
→ 不选 Multiple。类似添加 like
、comment
等PS:
.ContentItem-title
product-wrapper
→ Selector 选为要爬取的对象 → Type 设为 Element click
→ Click selector 选为加载按钮 → Click type 选为 Click more → 选中 Multiple → Delay 设为 2000https://www.xxx.com/book/[1-50]
https://www.xxx.com/book/[0-50:25]
pagination
→ Selector 选为页码 → Type 设为 Link
→ Parent Selectors 多选link
→ Selector 选为商品 → Type 设为 Link
→ Parent Selectors 多选适合分页时动态加载的页面,Url 不变,页面不会刷新
click-pagination
→ Selector 选为商品 → Type 设为 Element click
→ Click selector 选为页码 → Click type 为 Click once → Discard initial elements 为 Discard when click element exists → Delay 设为 2000link
→ Type 设为 link
→ Selector 选为商品 → 不选 Multiple
推荐观看:Web Scraper 官方教程 #3 —— 分页处理
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。