赞
踩
今天为大家推荐一个chrome浏览器的爬虫插件神器——web scraper。让大家只需要简简单单的几个操作,就可以爬取到我们想要的数据内容。
目录
进入谷歌chrome浏览器首页,左击右上角导航栏的拼图形状的【扩展程序】按钮,再点击弹出的菜单栏中的【管理扩展程序】(图1),进入扩展程序界面,这里包含了自己已经安装的插件。
点击左上角的【 Chrome 应用商店】进入插件商城(图2)
在插件搜索栏输入“web scraper”,找到目标插件如图3。
点击目标插件,并将插件【添加至Chrome】,如下图4。
Successful!!!以上就完成了web scraper插件的安装了!!!
下面我将通过一个爬虫项目来进行阐述:
- 目标网址:豆瓣电影 Top 250
- 任务内容:爬取豆瓣网中的电影Top 250部电影的信息。
进入到豆瓣网指定页面,按【F12】或在右击鼠标的菜单栏中选择【检查】进入到开发者模式。
首先在开发者模式下打开Scraper,然后创建新的Sitemap,并将网页的url链接填写到Start URL中,对于Sitemap name的命名,大家可以随意进行填写。点击Create Sitemap后,即可创建一个新的SItemap。在创建Sitemap后,接下来的操作才是最重要的,如下图5所示:
1、关于网址URL:如果要实现多页爬取,需要找到页面网址的规律,在上述的豆瓣Top250部电影内容中,我们分析其多个页的网址如下
https://movie.douban.com/top250?start=0&filter=
https://movie.douban.com/top250?start=25&filter=
https://movie.douban.com/top250?start=50&filter=
......
https://movie.douban.com/top250?start=225&filter=
通过分析,URL网址变化的是start变量的参数值,且表示每一页的起始行号,那么在Start URL 1中,我们做如下编辑
https://movie.douban.com/top250?start=[0:225:25]&filter=
其中[0:225:25]表示动态的变量,从0到225,且步长为25,即实现上述多页的网址变换。
在图6中首先选择Add new selector;
然后在图7中,在Id中输入title(表示要爬取的字段为电影的名称),在Type中选择Text,并点击Select。在网页中点击不同电影的名字,scraper会自动提取电影的url名称,并生成selector链接,点击Done selecting即可。在点击Done selecting后,勾选Multiple(因为是爬取多个商品url),这里的Delay可以采用默认的值,或者是自己添加一个数值。并点击Save selector。
在Sitemap underwear下点击Scrape(图8),点击Start Scraping后,scraper便会帮我们逐页爬取所有页的电影名称(图9)。
在点击Start scraping后,浏览器Chrome会跳出新的窗口自动爬取每一页的数据,点击下图10中的refresh data,可以实时查看爬取的数据,等待新打开的窗口自动关闭则表示爬取结束。
在的Sitemap underwear下拉菜单下,点击Export data as CSV后,即可将爬取到的数据保存为csv文件并下载下来。如下图11所示:
Web scraper多字段爬虫操作演示
这个插件还是很牛逼的,其实原理就是用selenium 打开chrome浏览器进行爬取,只是google这个插件帮我们集成了好了。有兴趣的小伙伴可以试一下。有什么问题可以在评论区留言哈!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。