网页爬虫：零基础用爬虫爬取网页内容

作者：小惠珠哦 | 2024-07-18 11:13:03

踩

爬取网页内容

网络上有许多用 Python 爬取网页内容的教程，但一般需要写代码，没有相应基础的人要想短时间内上手，还是有门槛的。其实绝大多数场景下，用 Web Scraper （一个 Chrome 插件）就能迅速爬到目标内容，重要的是，不用下载东西，也基本不需要代码知识。

在开始之前，有必要简单了解几个问题。

a、爬虫是什么？
自动抓取目标网站内容的工具。

b、爬虫有什么用？
提高数据采集效率。应该没有人想让自己的手指不停的重复复制粘贴的动作，机械性的事情，就应该交给工具去做。快速采集数据，也是分析数据的基础。

c、爬虫的原理是什么？

要了解这一点，需要先了解人类为什么能浏览网页。我们通过输入网址、关键字、点击链接等形式发送请求给目标计算机，然后将目标计算机的代码下载到本地，再解析/渲染成看到的页面。这就是上网的过程。

爬虫做的就是模拟这一过程，不过它对比人类动作飞快，且可以自定义抓取内容，然后存放在数据库中供浏览或下载。搜索引擎能够工作，也是类似原理。

但爬虫只是工具，要让工具工作起来，就得让爬虫理解你想要的是什么，这就是我们要做的事情。毕竟，人类的脑电波没法直接流入计算机。也可以说，爬虫的本质就是找规律。

这里就以豆瓣电影 Top250 为例（很多人都拿这个练手，因为豆瓣网页规整），来看看 Web Scraper有多么好爬，以及大致怎么用。

1、在 Chrome 应用店里搜索 Web Scraper，然后点击「添加拓展程序」，这时就能在 Chrome 插件栏里看到蜘蛛网图标。

（如果日常所用浏览器不是 Chrome，强烈建议换一换，Chrome 和其他浏览器的差别，就像 Google 和其他搜索引擎的差别）
在这里插入图片描述

2、打开要爬的网页，比如豆瓣 Top250 的 URL 是 https://movie.douban.com/top250，然后同时按住 option+command+i 进入开发者模式（如果用的是 Windows，则是 ctrl+shift+i，不同浏览器的默认快捷键可能有不同)，这时可以看到网页弹出这样一个对话框，不要怂，这只是当前网页的 HT

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/小惠珠哦/article/detail/845310?site