赞
踩
实现方法采用 Pillow+Selenium,基本原理为:截取多张不同位置的页面,拼接成一个图片
已知情报:Chrome()只能截取当前屏幕展示出的网页,本篇文章是针对webdriver.Chrome()
的全屏幕截取解决方法
开始写代码之前我们必须要明确我们的最终目的,即截取到整个网页。根据这个需求,分解出多个问题点:
带着上面的问题让我们开始吧!
下面将分段解释代码,完整代码请戳此处
目标网站:https://www.csdn.net/
首先要知道怎么在网页中截图
from selenium import webdriver
driver = webdriver.Chrome()
# 设置浏览器窗口最大化
driver.maximize_window() # 设置打开页面最大化,目的是更好的截取错误图
# 打开网站
driver.get("https://www.csdn.net/")
# 1. 截取当前页面
driver.save_screenshot('result.png')
上面执行的是截取当前展示出来的页面,但并不是我们要的完整页面,所以要截取多张图
from PIL import Image JS = { '滚动到页尾': "window.scroll({top:document.body.clientHeight,left:0,behavior:'auto'});", '滚动到': "window.scroll({top:%d,left:0,behavior:'auto'});", } # 获取body大小 body_h = int(driver.find_element_by_xpath('//body').size.get('height')) # 计算当前页面截图的高度 # (使用driver.get_window_size()也可以获取高度,但有误差,推荐使用图片高度计算) current_h = Image.open('result.png').size[1] image_list = ['result.png'] # 储存截取到的图片路径 for i in range(1, int(body_h/current_h)): # 1. 滚动到指定锚点 driver.execute_script(JS['滚动到'] % (current_h * i)) # 2. 截图 driver.save_screenshot(f'test_{i}.png') join_images('result.png', f'test_{i}.png') # 处理最后一张图 driver.execute_script(JS['滚动到页尾']) driver.save_screenshot('test_end.png') # 拼接图片 join_images('result.png', 'test_end.png', size=current_h-int(body_h % current_h))
拼接图片的join_images方法,参考自Ivy丶大神的博文python图片拼接
def join_images(png1, png2, size=0, output='result.png'): """ 图片拼接 :param png1: 图片1 :param png2: 图片2 :param size: 两个图片重叠的距离 :param output: 输出的图片文件 :return: """ # 图片拼接 img1, img2 = Image.open(png1), Image.open(png2) size1, size2 = img1.size, img2.size # 获取两张图片的大小 joint = Image.new('RGB', (size1[0], size1[1]+size2[1]-size)) # 创建一个空白图片 # 设置两张图片要放置的初始位置 loc1, loc2 = (0, 0), (0, size1[1] - size) # 分别放置图片 joint.paste(img1, loc1) joint.paste(img2, loc2) # 保存结果 joint.save(output)
运行效果:
相关资料:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。