赞
踩
Headless Browser(无头的浏览器)是什么鬼?
简而言之,Headless Browser是没有图形用户界面(GUI)的web浏览器,通常是通过编程或命令行界面来控制的。
Headless Browser的许多用处之一是自动化可用性测试或测试浏览器交互。如果您正在尝试检查页面在不同的浏览器中呈现的方式,或者确认页面元素在用户启动某个工作流之后出现,那么使用Headless Browser可以提供大量的帮助。除此之外,如果内容是动态呈现的(比如通过Javascript),web抓取等传统的面向web的任务就很难做了。使用Headless Browser可以方便地访问这些内容,因为内容的呈现方式与完全浏览器中的内容完全相同。
基于不同的浏览器,有不同的浏览器引擎。(http://www.cnblogs.com/wangjunqiao/p/5212561.html)
主流浏览器所使用的内核分类
Trident内核:IE,MaxThon,TT,The World,360,搜狗浏览器等
Gecko内核:Netscape6及以上版本,FF,MozillaSuite/SeaMonkey等
Presto内核:Opera7及以上
Webkit内核:Safari,Chrome等
先让我们看看浏览器处理过程中的每一个步骤:
1.处理HTML脚本,生成DOM树
2.处理CSS脚本,生成CSSOM树 (DOM和CSSOM是独立的数据结构)
3.将DOM树和CSSOM树合并为渲染树
4.对渲染树中的内容进行布局,计算每个节点的几何外观
5.将渲染树中的每个节点绘制到屏幕中
Headless Browser实际就是节约了第4,5步的时间。
3年前,无头浏览器 PhantomJS 已经如火如荼出现了,紧跟着 NightmareJS 也成为一名巨星。无头浏览器带来巨大便利性:页面爬虫、自动化测试、WebAutomation...用过PhantomJS的都知道,它的环境是运行在一个封闭的沙盒里面,在环境内外完全不可通信,包括API、变量、全局方法调用等。
Headless Chrome和Python
在发布Headless Chrome之前,当你需要自动化浏览器的时候随时都有可能涉及多个窗口或标签,你必须担心CPU和/或内存的使用。这两种方式都与必须从被请求的URL中显示显示的图形的浏览器相关联。
当使用一个无头的浏览器时,我们不用担心这个。因此,我们可以预期我们编写的脚本的内存开销会降低,执行速度也会更快。
而Chrome从59版本开始 推出了 headless mode(当时仅支持Mac和Linux),而目前最新的Chrome63版已经开始在windows上支持headless mode。
安装Headless Chrome 在windows
Selenium操作chrome浏览器需要有ChromeDriver驱动来协助。
什么是ChromeDriver?
ChromeDriver是Chromium team开发维护的,它是实现WebDriver有线协议的一个单独的服务。ChromeDriver通过chrome的自动代理框架控制浏览器,建议从以下地址直接下载最新的版本:ChromeDriver 2.34
它才可以支持Chrome v61-63。
可以将此driver放置于:C:\Program Files\Google\Chrome\Application\ (对应的Chrome安装目录下)
安装Selenium 在windows
cmd命令里面运行:
$pip install selenium
编写对应的脚本
编写一个对应的百度搜索的脚本
- import os
- from selenium import webdriver
- from selenium.webdriver.common.keys import Keys
- from selenium.webdriver.chrome.options import Options
- import time
-
- chrome_options = Options()
- chrome_options.add_argument("--headless")
-
- base_url = "http://www.baidu.com/"
- #对应的chromedriver的放置目录
- driver = webdriver.Chrome(executable_path=(r'C:\Program Files\Google\Chrome\Application\chromedriver.exe'), chrome_options=chrome_options)
-
- driver.get(base_url + "/")
-
- start_time=time.time()
- print('this is start_time ',start_time)
-
- driver.find_element_by_id("kw").send_keys("selenium webdriver")
- driver.find_element_by_id("su").click()
- driver.save_screenshot('screen.png')
-
- driver.close()
-
- end_time=time.time()
- print('this is end_time ',end_time)
- chrome_options = webdriver.ChromeOptions()
- chrome_options.add_argument('--headless')
以上的脚本运行完成后,你会在你的当前目录看到一个类似于下面画面的screen.png.
可以看出上面的写法和直接使用Selenium调用Chrome浏览器的时候极其类似,只是多添加了对chrome_options的重写。
据运行的试验表明,Headelss 的确比Headed的浏览器在内存消耗,运行时间,CPU占用上面都有一定的优势。
headless对比.png
使用Headless Chrome也许能让你的自动化测试运行更快,而且在视觉测试上面也有一定的优势。感兴趣的朋友可以上手试试。
链接:https://www.jianshu.com/p/11d519e2d0cb
reflink:https://linux.cn/article-8850-1.html
在 Chrome 59 中开始搭载 Headless Chrome。这是一种在无需显示headless的环境下运行 Chrome 浏览器的方式。从本质上来说,就是不用 chrome 浏览器来运行 Chrome 的功能!它将 Chromium 和 Blink 渲染引擎提供的所有现代 Web 平台的功能都带入了命令行。
它有什么用?
无需显示headless的浏览器对于自动化测试和不需要可视化 UI 界面的服务器环境是一个很好的工具。例如,你可能需要对真实的网页运行一些测试,创建一个 PDF,或者只是检查浏览器如何呈现 URL。
注意: Mac 和 Linux 上的 Chrome 59 都可以运行无需显示模式。对 Windows 的支持将在 Chrome 60 中提供。要检查你使用的 Chrome 版本,请在浏览器中打开 chrome://version。
开启无需显示headless模式(命令行界面)
开启无需显示headless模式最简单的方法是从命令行打开 Chrome 二进制文件。如果你已经安装了 Chrome 59 以上的版本,请使用 --headless 标志启动 Chrome:
- chrome \
-
- --headless \ # Runs Chrome in headless mode.
-
- --disable-gpu \ # Temporarily needed for now.
-
- --remote-debugging-port=9222 \
-
- https://www.chromestatus.com # URL to open. Defaults to about:blank.
注意:目前你仍然需要使用 --disable-gpu 标志。但它最终会不需要的。
chrome 二进制文件应该指向你安装 Chrome 的位置。确切的位置会因平台差异而不同。当前我在 Mac 上操作,所以我为安装的每个版本的 Chrome 都创建了方便使用的别名。
如果您使用 Chrome 的稳定版,并且无法获得测试版,我建议您使用 chrome-canary 版本:
- alias chrome="/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome"
-
- alias chrome-canary="/Applications/Google\ Chrome\ Canary.app/Contents/MacOS/Google\ Chrome\ Canary"
-
- alias chromium="/Applications/Chromium.app/Contents/MacOS/Chromium"
在这里下载 Chrome Cannary。
命令行的功能
在某些情况下,你可能不需要以脚本编程的方式操作 Headless Chrome。可以使用一些有用的命令行标志来执行常见的任务。
打印 DOM
--dump-dom 标志将打印 document.body.innerHTML 到标准输出:
chrome --headless --disable-gpu --dump-dom https://www.chromestatus.com/
创建一个 PDF
--print-to-pdf 标志将页面转出为 PDF 文件:
chrome --headless --disable-gpu --print-to-pdf https://www.chromestatus.com/
截图
要捕获页面的屏幕截图,请使用 --screenshot 标志:
- chrome --headless --disable-gpu --screenshot https://www.chromestatus.com/
-
- # Size of a standard letterhead.
-
- chrome --headless --disable-gpu --screenshot --window-size=1280,1696 https://www.chromestatus.com/
-
- # Nexus 5x
-
- chrome --headless --disable-gpu --screenshot --window-size=412,732 https://www.chromestatus.com/
使用 --screenshot 标志运行 Headless Chrome 将在当前工作目录中生成一个名为 screenshot.png 的文件。如果你正在寻求整个页面的截图,那么会涉及到很多事情。来自 David Schnurr 的一篇很棒的博文已经介绍了这一内容。请查看 使用 headless Chrome 作为自动截屏工具。
REPL 模式 (read-eval-print loop)
--repl 标志可以使 Headless Chrome 运行在一个你可以使用浏览器评估 JS 表达式的模式下。执行下面的命令:
- $ chrome --headless --disable-gpu --repl https://www.chromestatus.com/
-
- [0608/112805.245285:INFO:headless_shell.cc(278)] Type a Javascript expression to evaluate or "quit" to exit.
-
- >>> location.href
- {"result":{"type":"string","value":"https://www.chromestatus.com/features"}}
-
- >>> quit
在没有浏览器界面的情况下调试 Chrome
当你使用 --remote-debugging-port=9222 运行 Chrome 时,它会启动一个支持 DevTools 协议的实例。该协议用于与 Chrome 进行通信,并且驱动 Headless Chrome 浏览器实例。它也是一个类似 Sublime、VS Code 和 Node 的工具,可用于应用程序的远程调试。#协同效应
由于你没有浏览器用户界面可用来查看网页,请在另一个浏览器中输入 http://localhost:9222,以检查一切是否正常。你将会看到一个可检查的inspectable页面的列表,可以点击它们来查看 Headless Chrome 正在呈现的内容:
DevTools 远程调试界面
从这里,你就可以像往常一样使用熟悉的 DevTools 来检查、调试和调整页面了。如果你以编程方式使用 Headless Chrome,这个页面也是一个功能强大的调试工具,用于查看所有通过网络与浏览器交互的原始 DevTools 协议命令。
使用编程模式 (Node)
Puppeteer 库 API
Puppeteer 是一个由 Chrome 团队开发的 Node 库。它提供了一个高层次的 API 来控制无需显示版(或 完全版)的 Chrome。它与其他自动化测试库,如 Phantom 和 NightmareJS 相类似,但是只适用于最新版本的 Chrome。
除此之外,Puppeteer 还可用于轻松截取屏幕截图,创建 PDF,页面间导航以及获取有关这些页面的信息。如果你想快速地自动化进行浏览器测试,我建议使用该库。它隐藏了 DevTools 协议的复杂性,并可以处理诸如启动 Chrome 调试实例等繁冗的任务。
安装:
yarn add puppeteer
例子 - 打印用户代理:
const puppeteer = require('puppeteer');
(async() => {
const browser = await puppeteer.launch();
console.l
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。