当前位置:   article > 正文

零代码爬虫(手把手图文教学)_webscraper chrome

webscraper chrome

今天为大家推荐一个chrome浏览器的爬虫插件神器——web scraper。让大家只需要简简单单的几个操作,就可以爬取到我们想要的数据内容。

  • 零代码爬虫
  • 克服多种反爬虫机制(Agent、Cookie等网站特殊防护错误)
  • 动态多页爬取
  • 一键导出数据

目录

01 安装web scraper插件

第一步 进入插件扩展页面

第二步 进入插件商城

第三步 搜索Web scraper

第四步 添加插件

02 使用scraper插件爬虫

第一步 进入目标网址并打开开发者模式

第二步 创建Sitemap

第三步 添加爬取字段

第四步 具体爬取字段添加

 第五步 自动爬取数据

第六步 实时查看爬取的数据

第七步 下载爬取的数据

03 视频演示

一、关于爬取多个字段:

04 尾声


01 安装web scraper插件

第一步 进入插件扩展页面

进入谷歌chrome浏览器首页,左击右上角导航栏的拼图形状的【扩展程序】按钮,再点击弹出的菜单栏中的【管理扩展程序】(图1),进入扩展程序界面,这里包含了自己已经安装的插件。

图 1

第二步 进入插件商城

点击左上角的【 Chrome 应用商店】进入插件商城(图2)

图 2

第三步 搜索Web scraper

在插件搜索栏输入“web scraper”,找到目标插件如图3。

图 3

第四步 添加插件

点击目标插件,并将插件【添加至Chrome】,如下图4。

图 4

Successful!!!以上就完成了web scraper插件的安装了!!!

02 使用scraper插件爬虫

下面我将通过一个爬虫项目来进行阐述:

  1. 目标网址:豆瓣电影 Top 250
  2. 任务内容:爬取豆瓣网中的电影Top 250部电影的信息。

第一步 进入目标网址并打开开发者模式

进入到豆瓣网指定页面,按【F12】或在右击鼠标的菜单栏中选择【检查】进入到开发者模式。

第二步 创建Sitemap

首先在开发者模式下打开Scraper,然后创建新的Sitemap,并将网页的url链接填写到Start URL中,对于Sitemap name的命名,大家可以随意进行填写。点击Create Sitemap后,即可创建一个新的SItemap。在创建Sitemap后,接下来的操作才是最重要的,如下图5所示:

图 5

1、关于网址URL:如果要实现多页爬取,需要找到页面网址的规律,在上述的豆瓣Top250部电影内容中,我们分析其多个页的网址如下

https://movie.douban.com/top250?start=0&filter=

https://movie.douban.com/top250?start=25&filter=

https://movie.douban.com/top250?start=50&filter=

......

https://movie.douban.com/top250?start=225&filter=

通过分析,URL网址变化的是start变量的参数值,且表示每一页的起始行号,那么在Start URL 1中,我们做如下编辑

https://movie.douban.com/top250?start=[0:225:25]&filter=

其中[0:225:25]表示动态的变量,从0到225,且步长为25,即实现上述多页的网址变换。

第三步 添加爬取字段

在图6中首先选择Add new selector;

图 6

第四步 具体爬取字段添加

然后在图7中,在Id中输入title(表示要爬取的字段为电影的名称),在Type中选择Text,并点击Select。在网页中点击不同电影的名字,scraper会自动提取电影的url名称,并生成selector链接,点击Done selecting即可。在点击Done selecting后,勾选Multiple(因为是爬取多个商品url),这里的Delay可以采用默认的值,或者是自己添加一个数值。并点击Save selector。

图 7

 第五步 自动爬取数据

在Sitemap underwear下点击Scrape(图8),点击Start Scraping后,scraper便会帮我们逐页爬取所有页的电影名称(图9)。

图 8
图 9

第六步 实时查看爬取的数据

在点击Start scraping后,浏览器Chrome会跳出新的窗口自动爬取每一页的数据,点击下图10中的refresh data,可以实时查看爬取的数据,等待新打开的窗口自动关闭则表示爬取结束。

图 10

第七步 下载爬取的数据

在的Sitemap underwear下拉菜单下,点击Export data as CSV后,即可将爬取到的数据保存为csv文件并下载下来。如下图11所示:

图 11

03 视频演示

一、关于爬取多个字段:

Web scraper多字段爬虫操作演示

04 尾声

这个插件还是很牛逼的,其实原理就是用selenium 打开chrome浏览器进行爬取,只是google这个插件帮我们集成了好了。有兴趣的小伙伴可以试一下。有什么问题可以在评论区留言哈!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/976911
推荐阅读
相关标签
  

闽ICP备14008679号