【爬虫】基础爬虫案例分析（一看就懂）_爬虫案例学习

作者：繁依Fanyi0 | 2024-07-14 13:03:13

踩

爬虫案例学习

什么是爬虫。简单一句话就是代替人去模拟浏览器进行网页操作。

爬虫的作用。为其他程序提供数据源，如搜索引擎(百度、Google等)、数据分析、大数据等等。

一、准备工作

我们需要先做好如下准备工作：

具体安装步骤可以看下这个链接：http://t.csdn.cn/RvBqQ

请求，英文为Request，由客户端发往服务器，分为四部分内容: 请求方法(Request Method).请求的网址(Request URL )、请求头( Request Headers )、请求体(Request Body )。

这里我就不系统的解释了，如果想要了解更完善可以点击这个链接：http://t.csdn.cn/unbf3

1.正则表达式的用法

（1）判断特定字符串

（2）切割字符串

（3）提取字符串信息

（4）替换字符串

2.正则表达式库 re 的基本用法

re模块主要定义了9个常量、12个函数、1个异常，re库，Python处理文本的标准库（标准库的意思表示这是一个Python内置模块，不需要额外下载）。

（1）sreach用法：它会搜索整个 HTML 文本，找到符合上述正则表达式的第一个内容并返回。匹配连续的多个数值。

（2）match用法：向它传人要匹配的字符串以及正则表达式，就可以检测这个正则表达式是否和字符串相匹配。

（3）compile用法：可以将正则字符串编译成正则表达式对象，以便在后面的匹配中复用。

（4） findall用法：获取与正则表达式相匹配的所有字符串。

（5） sub 用法：使用正则表达式提取信息，有时候还需要借助它来修改文本。

本节我们以一个基本的静态网站作为案例进行爬取，需要爬取的链接为 https://ssr1.scrape.center这个网站里面包含一些电影信息，界面如图所示。

网站首页展示了一个由多个电影组成的列表，其中每部电影都包含封面、名称、分类、上映时间评分等内容，同时列表页还支持翻页，单击相应的页码就能进入对应的新列表页。如果我们点开其中一部电影，会进入该电影的详情页面，例如我们打开第一部电影《霸王别姬》.会得到如图所示的页面。

这个页面显示的内容更加丰富，包括剧情简介、导演、演员等信息。

我们本次爬虫要完成的目标有:

1.利用 requests 爬取这个站点每一页的电影列表，顺着列表再爬取每个电影的详情页;

2.用正则表达式提取每部电影的名称、封面、类别、上映时间、评分、刷情简介等内容

把以上爬取的内容保存为JSON 文本文件;

已经做好准备，也明确了目标，那我们现在就开始吧。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/824775