Python网络爬虫实战——实验5：Python爬虫之selenium动态数据采集实战_selenium动态网页爬取实验报告

作者：2023面试高手 | 2024-04-06 22:35:16

踩

selenium动态网页爬取实验报告

【实验内容】

本实验主要介绍和使用selenium库在js动态加载网页中数据采集的作用。

【实验目的】

1、理解动态加载网页的概念
2、学习Selenium库基本使用
3、掌握动态加载数据采集流程

【实验步骤】

步骤1理解动态加载网页
步骤2学习使用Selenium库
步骤3 采集河北政府采购网

步骤1：理解动态加载网页
动态加载网页是指在页面初次加载完成后，通过JavaScript等前端技术，根据用户的交互或其他触发条件，向服务器请求额外的数据并将其加载到已有页面中，而无需刷新整个页面。这种技术使得网页能够更快地响应用户操作，提升用户体验，同时避免了每次交互都重新加载整个页面的开销。以下是一些常见的动态加载网页的情形：
异步加载：通过AJAX（Asynchronous JavaScript and XML）等技术，网页可以在后台异步加载数据，然后使用JavaScript更新页面的部分内容，而无需重新加载整个页面。
无限滚动：在一些网页中，当用户滚动页面到底部时，会自动加载更多的内容，实现无限滚动效果。
实时更新：一些网页需要实时显示最新的信息，例如社交媒体的实时更新流。在这里插入图片描述上图站长之家就是使用js动态渲染网页，在传统的静态网页爬取中，爬虫工具通常只能获取页面初次加载时的静态内容，而无法直接获取动态加载的数据。

步骤2：学习Selenium库基本使用
(1) 介绍
selenium最初是一个自动化测试工具，而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。selenium本质上是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等…进而拿到网页渲染之后的结果，可支持多种浏览器
(2) 安装Selenium库：
/==============/
(3) 下载浏览器驱动
根据使用的浏览器下载对应版本的浏览器驱动，例如Chrome浏览器需要下载ChromeDriver。将驱动文件保存在一个合适的位置。
下载地址：
/===================================/
在这里插入图片描述 (4) 初始化Selenium WebDriver
在Python脚本中使用Selenium库，初始化一个WebDriver，指定浏览器类型和驱动路径。
-***************************************************************
(5) 访问目标网址
使用WebDriver访问需要采集数据的目标网页。
-***************************************************************
(6) 模拟用户行为
/======================================================/
(7) 等待数据加载
由于动态加载可能需要一些时间，需要使用等待机制确保数据加载完成。
-****************************************************
(8) 提取数据
一旦数据加载完成，使用Selenium提取目标数据。
-****************************************************
(9) 关闭浏览器在这里插入图片描述
步骤3 采集河北政府采购网
(1) 分析页面
主页面
地址:http://www.ccgp-hebei.gov.cn/province/cggg/zhbgg/index_1.html

进入主页面后，摁F12打开开发者工具，点击Doc输入关键字学，点击检索按钮，可以出现如上图4步骤所示的接口，preview中可以查看到该接口的返回值。

子页面
/=======================================================================================================/ 在这里插入图片描述
(2) 解析出子页面信息
导入第三方模块：

/==================================================================================================/

/==================================================================================================/

(3) 获取子页面源代码
导入模块
-***********************************************************************
首先初始化一个Chrome(options=chrome_options) ，创建了一个新的Chrome WebDriver实例，传入配置参数。

/==================================================================================================================================================/
-******************************************************************
/===============================================================================================================================================/
整个操作是在一个try-except-finally块中进行的，如果出现异常（比如加载超时），会打印一条消息，并在 finally 块中关闭 WebDriver，确保资源被正确释放。

(4) 解析子页面数据在这里插入图片描述下面代码是解析子页面主要标信息字段的代码，使用xpath语法对数据进行提取。
/===================================================================================================================================================/
-****************************************************************
提取的数据字段最终保存为如下图所示。
-*************************************************************************
(5) 保存为json文件
-*******************************************************************
使用with语句打开文件 “hebei -zhong.json”，打开模式为追加模式 a，以UTF-8编码。将JSON格式的字符串 message 写入文件，并添加一个逗号和换行符，以便在后续追加新的JSON数据，这有助于生成一个包含多个JSON对象的有效JSON数组。

生成单个字段完整示例如下：
-*************************************************************************************

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】