赞
踩
网络上有许多用 Python 爬取网页内容的教程,但一般需要写代码,没有相应基础的人要想短时间内上手,还是有门槛的。其实绝大多数场景下,用 Web Scraper (一个 Chrome 插件)就能迅速爬到目标内容,重要的是,不用下载东西,也基本不需要代码知识。
在开始之前,有必要简单了解几个问题。
a、爬虫是什么?
自动抓取目标网站内容的工具。
b、爬虫有什么用?
提高数据采集效率。应该没有人想让自己的手指不停的重复复制粘贴的动作,机械性的事情,就应该交给工具去做。快速采集数据,也是分析数据的基础。
c、爬虫的原理是什么?
要了解这一点,需要先了解人类为什么能浏览网页。我们通过输入网址、关键字、点击链接等形式发送请求给目标计算机,然后将目标计算机的代码下载到本地,再解析/渲染成看到的页面。这就是上网的过程。
爬虫做的就是模拟这一过程,不过它对比人类动作飞快,且可以自定义抓取内容,然后存放在数据库中供浏览或下载。搜索引擎能够工作,也是类似原理。
但爬虫只是工具,要让工具工作起来,就得让爬虫理解你想要的是什么,这就是我们要做的事情。毕竟,人类的脑电波没法直接流入计算机。也可以说,爬虫的本质就是找规律。
这里就以豆瓣电影 Top250 为例(很多人都拿这个练手,因为豆瓣网页规整),来看看 Web Scraper有多么好爬,以及大致怎么用。
1、在 Chrome 应用店里搜索 Web Scraper,然后点击「添加拓展程序」,这时就能在 Chrome 插件栏里看到蜘蛛网图标。
(如果日常所用浏览器不是 Chrome,强烈建议换一换,Chrome 和其他浏览器的差别,就像 Google 和其他搜索引擎的差别)
2、打开要爬的网页,比如豆瓣 Top250 的 URL 是 https://movie.douban.com/top250,然后同时按住 option+command+i 进入开发者模式(如果用的是 Windows,则是 ctrl+shift+i,不同浏览器的默认快捷键可能有不同),这时可以看到网页弹出这样一个对话框,不要怂,这只是当前网页的 HT
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。