当前位置:   article > 正文

基于nodejs,使用playwright对网站进行爬虫

基于nodejs,使用playwright对网站进行爬虫

近期有一个对某网站进行爬虫的需求,总结了几种爬虫框架的使用,并基于playwright进行爬虫。

爬虫框架

常用的爬虫框架有以下几种:

  1. ScrapyScrapy是一个基于Python的高级爬虫框架,可以用于快速开发、测试和部署爬虫。它具有强大的页面解析和数据提取功能,并支持分布式爬取,适用于大规模爬取数据的需求。

  2. BeautifulSoupBeautifulSoup是一个Python库,用于从HTML或XML文档中提取数据。它提供了简单直观的API,使得解析复杂的HTML文档变得容易。BeautifulSoup可以与其他网络库(如Requests)配合使用来实现爬取和解析网页的功能。

  3. SeleniumSelenium是一个自动化测试工具,可以模拟真实用户的操作,包括点击、填写表单、提交等。它可以用来解决一些动态页面爬取的问题,如需要登录的网站或使用JavaScript渲染的页面。

  4. PyQueryPyQuery是一个类似于jQueryPython库,可以用来解析HTML文档并提供类似于jQuery的选择器语法来查找和操作元素。它提供了简洁的API,并具有方便的数据提取功能。

  5. RequestsRequests是一个简洁而优雅的HTTP库,用于发送HTTP请求和处理响应。它可以用来下载网页、发送表单数据、处理Cookie等。结合其他解析库,如BeautifulSoup,可以实现简单的爬虫功能。

这些爬虫框架各有特点,根据不同的需求可以选择适合的框架来实现爬虫任务。

Playwright

Playwright是一个用于自动化浏览器操作的开源框架,可以使用它来进行爬虫任务。Playwright支持多种浏览器,包括ChromeFirefoxWebKit,并提供了简单易用的API来进行页面导航、元素查找和操作、数据提取等操作。

Playwright特点

  1. 多浏览器支持:Playwright支持多个主流的浏览器,包括ChromeFirefoxWebKit。这意味着你可以在这些浏览器上运行你的自动化测试,而无需额外的配置和代码改动。

  2. 支持多语言:Playwright提供了多种编程语言的API,包括JavaScriptPython.NET。这使得开发人员可以使用他们最熟悉的语言来编写自动化测试,并且可以在不同的项目中共享和重用代码。

  3. 强大的浏览器操作能力:Playwright提供了丰富的API,可以对浏览器进行各种操作,例如导航到URL、点击元素、填写表单、截屏、模拟用户输入等。这些功能使得开发人员可以编写复杂的自动化测试脚本,以模拟用户在浏览器中的各种行为。

  4. 支持并发执行:Playwright可以同时在多个浏览器上执行测试,并行地执行测试脚本。这可以大大减少测试的执行时间,提高测试的效率。

  5. 跨平台支持:Playwright可以在不同的操作系统上运行,包括WindowsMacLinux。这意味着你可以使用Playwright来自动化测试不同平台上的应用程序。

Playwright使用

使用Playwright进行爬虫有以下几个步骤:

第一步:安装Playwright

使用npm安装Playwright库,可以在命令行中运行npm install playwright来安装。

第二步:初始化Playwright

在代码中引入Playwright库,并使用playwright对象初始化所需的浏览器。例如,可以使用const browser = await playwright.chromium.launch()来启动Chrome浏览器实例。

第三步:创建页面

使用浏览器实例创建一个页面对象,可以使用const page = await browser.newPage()来创建一个新的页面。

第四步:导航到网页

使用页面对象的goto(url)方法导航到目标网页。例如,可以使用await page.goto('https://example.com')来访问示例网页。

第五步:查找和操作元素

使用页面对象的方法来查找和操作网页上的元素。例如,可以使用const element = await page.$('selector')来查找符合选择器的第一个元素,并使用element.click()来模拟点击操作。

第六步:提取数据

使用页面对象的方法来提取页面上的数据。例如,可以使用const textContent = await page.$eval('selector', element => element.textContent)来提取元素的文本内容。

第七步:关闭浏览器

在完成任务后,记得关闭浏览器实例。可以使用await browser.close()来关闭浏览器。

通过以上步骤,就可以使用Playwright框架来进行简单的爬虫任务,自动化地进行网页操作和数据提取。在实际使用中,还可以结合其他的数据处理库和工具,对提取的数据进行进一步的处理和存储。

一个完整的test示例

首先,介绍Playwrighttest,它是一个基于playwright的测试框架,可以用于编写和运行自动化测试脚本。可以对页面进行模拟操作、断言和验证页面的状态,并生成详细的测试报告。它支持异步编程模型,可以使用async/await语法编写测试用例。

使用playwright的test,你可以轻松地模拟用户在浏览器上的操作,比如点击、输入、滚动等,并验证页面上的元素是否正确显示、是否发生了预期的交互。

import { test, expect } from '@playwright/test';
import playwright from 'playwright'

test("get started link", async({ page, context }) => {
  test.setTimeout(100 * 60 * 1000)
  // 打开网站
  await page.goto('https://xxxx.com/index.html')

   // 匹配到lass=wiki-nav_item的div下所有class=wiki-nav_item-title的连接
  const rows = await page.locator(`//div[contains(@class,'wiki-nav_item')]/a[contains(@class, 'wiki-nav_item-title')]`).all();
  for(const row of rows) {
    
    // ..... do anything
    
    // 如:获取到链接的地址
    let href = await row.getAttribute('href') 
    
  }
})
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/210571
推荐阅读
  

闽ICP备14008679号