赞
踩
现在出现了一种通过用户鼠标移动滑块来填补有缺口图片的验证码,我们叫做滑动验证码。它的原理很简单,首先生成一张图片,然后随机挖去一块,在页面展示被挖去部分的图片,再通过js获取用户滑动距离,以及坐标等信息到后台进行校验。只要用户移动的距离符合,以及移动的轨迹行为检测通过即可视为验证通过。
目前这种验证码的通用解决思路如下:
我们以某一网址为例
注意我们需要获取两张图片,第一张是完整背景图,第二张是有缺口的背景图。
经过分析发现当鼠标位于按钮是上时显示完整背景图
当鼠标点击滑动按钮不松,显示有缺口的背景图。
根据之前学习的爬虫知识,图片一定是浏览器下载回来的,通过查看历史请求确实发现了图片。
但是图片有点奇怪,仔细查看发现图片是被分块并有意随机拼接的。根据以页面的css可以利用背景将图片拼接出来。我们当然可以依葫芦画瓢的利用PIL进行图片拼接,但是太麻烦了。
selenium有个方法可以对元素进行截图,先找到图片所在的html元素,然后利用selenium分别进行截图即可获取图片。代码如下:
def get_full_image(driver):
"""
鼠标移动到滑块,显示完整图案
:param driver: webdriver
:return: 返回验证码背景图片Image对象
"""
webdriver.ActionChains(driver).move_to_element(slider).perform()
time.sleep(0.2)
img = driver.find_element_by_xpath('//*[@id="captcha"]/div/div[1]/div[2]/div[1]/a[2]')
if 'show' in img.get_attribute('class'):
res = img.screenshot_as_png
return Image.open(BytesIO(res))
else:
raise ValueError('获取验证码背景图片失败')
def get_cut_image(driver):
"""
点击滑动按钮获取有缺口图片
:param driver: webdriver
:return: 返回验证码有缺口图片的Image对象
"""
slider = driver.find_element_by_xpath('//*[@id="captcha"]/div/div[3]/div[2]')
webdriver.ActionChains(driver).click_and_hold(slider).perform()
time.sleep(0.1)
img = driver.find_element_by_xpath('//*[@id="captcha"]/div/div[1]/div[2]/div[1]/a[1]')
res = img.screenshot_as_png
cut_img = Image.open(BytesIO(res))
return Image.open(BytesIO(res))
算法有很多,大家可以自由发挥。这里我们讲一种最简单的方法。我们要算出的距离是滑块要滑动的距离。
[外链图片转存失败(img-8TSYCK65-1566993612012)(滑动验证.assets/1560510719212.png)]
通过比较没有缺口的图片,和这张有缺口的图片,找出滑块的位置和缺口的位置即可。经过观察,发现滑块出现的位置固定在x轴的0-100像素范围内,所以循环比较两张图片的x轴0-100像素范围内的每一行像素点,直到找到第一行出现两个图片像素点颜色完全不同的点,即找到了滑块的最左边最上的第一个像素点。但是在实际操作中发现,虽然肉眼看起来两张图片公共部分一模一样,但是程序处理后的像素的具体rgb值也是不相同的,所以需要设置一个阈值来判断,具体需要进行测试。
按照相同的思路,比较两张图片x轴100-end像素的部分,找到缺口的最左最上那个点。
用找到的缺口像素点的x坐标减去找到的滑块的点的x坐标得到近似移动距离。这种算法,经过测试准确率还不错,大家如果在实际工作过程中发现有问题,需要根据具体情况去设计不同算法。
代码如下:
def get_distance(full_image, cut_image): full_pixies = full_image.load() cut_pixies = cut_image.load() w, h = full_image.size full_image.save('full.png') cut_image.save('cut.png') # 先找最左边不同的点 left = [] for j in range(h): for i in range(100): if abs(full_pixies[i, j][0] - cut_pixies[i, j][0]) + abs(full_pixies[i, j][1] - cut_pixies[i, j][1]) + abs( full_pixies[i, j][2] - cut_pixies[i, j][2]) > 150: left.append((i, j)) if left: break # 再找最右边不同的点 right = [] for j in range(h): for i in range(100, w): if abs(full_pixies[i, j][0] - cut_pixies[i, j][0]) + abs(full_pixies[i, j][1] - cut_pixies[i, j][1]) + abs( full_pixies[i, j][2] - cut_pixies[i, j][2]) > 150: right.append((i, j)) if right: break length = right[0][0] - left[0][0] return length
滑动验证码早期刚面世的时候没有做行为校验,很快被破解。随着人工智能的发展,目前所有商用滑动验证码后台都有做行为校验,根据前端传递的移动轨迹,后台会进行特征校验,如果判定非人工则返回校验失败。模拟人的滑动行为,最常见的以中方法是通过加速度公式。目前这个方法已经被识别,但相对较简单,我们首先学习其思路。大家根据自己的能力可以自行扩展。
基本思路是,分析手动的移动轨迹后发现,是先加速后减速,所以通过加速度公式进行如下的设计:
def get_track(self, distance): ''' 拿到移动轨迹,模仿人的滑动行为,先匀加速后匀减速 匀变速运动基本公式: ①v=v0+at ②s=v0t+(1/2)at² ③v²-v0²=2as :param distance: 需要移动的距离 :return: 存放每0.2秒移动的距离 ''' # 初速度 v=0 # 单位时间为0.2s来统计轨迹,轨迹即0.2内的位移 t=0.3 # 位移/轨迹列表,列表内的一个元素代表0.2s的位移 tracks=[] # 当前的位移 current=0 # 到达mid值开始减速 mid=distance * 5/8 distance += 10 # 先滑过一点,最后再反着滑动回来 # a = random.randint(1,3) while current < distance: if current < mid: # 加速度越小,单位时间的位移越小,模拟的轨迹就越多越详细 a = random.randint(1,3) # 加速运动 else: a = -random.randint(2,4) # 减速运动 # 初速度 v0 = v # 0.2秒时间内的位移 s = v0*t+0.5*a*(t**2) # 当前的位置 current += s # 添加到轨迹列表 tracks.append(round(s)) # 速度已经达到v,该速度作为下次的初速度 v= v0+a*t # 反着滑动到大概准确位置 for i in range(4): tracks.append(-random.randint(1,3)) # for i in range(4): # tracks.append(-random.randint(1,3)) random.shuffle(tracks) return tracks
利用selenium,根据算出的轨迹,进行模拟滑动
def slide(self, tracks): # slider = self.driver.find_element_by_xpath('//*[@id="captcha"]/div/div[3]/div[2]') # 鼠标点击并按住不松 # webdriver.ActionChains(self.driver).click_and_hold(self.slider).perform() # 让鼠标随机往下移动一段距离 webdriver.ActionChains(self.driver).move_by_offset(xoffset=0, yoffset=100).perform() time.sleep(0.15) for item in tracks: webdriver.ActionChains(self.driver).move_by_offset(xoffset=item, yoffset=random.randint(-2,2)).perform() # 稳定一秒再松开 time.sleep(1) webdriver.ActionChains(self.driver).release(self.slider).perform() time.sleep(1) # 随机拿开鼠标 webdriver.ActionChains(self.driver).move_by_offset(xoffset=random.randint(200, 300), yoffset=random.randint(200, 300)).perform() time.sleep(0.2) info = self.driver.find_element_by_xpath('//*[@id="login-modal"]/div/div/div/div[2]/div[1]/div[2]/div[1]/div/div[1]/div[2]/div[2]/div/div[2]/span[1]') if '验证通过' in info.text: return 1 if '验证失败' in info.text: return 2 if '再来一次' in info.text: return 3 if '出现错误' in info.text: return 4
import time import random from io import BytesIO from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from PIL import Image class HuXiu: def __init__(self): self.driver = webdriver.Chrome() self.driver.maximize_window() self.slider = None self.load_captcha() def load_captcha(self): self.driver.get('https://www.huxiu.com/') self.driver.find_element_by_xpath('//*[@id="top"]/div/ul[2]/li[3]/a').click() time.sleep(0.5) try: self.slider = WebDriverWait(self.driver, 30).until(EC.element_to_be_clickable((By.XPATH, '//*[@id="login-modal"]/div/div/div/div[2]/div[1]/div[2]/div[1]/div/div[3]/div[2]'))) except Exception: raise ValueError('加载验证码失败!') def get_full_image(self): """ 鼠标移动到滑块,显示完整图案 :param driver: webdriver :return: 返回验证码背景图片Image对象 """ # slider = self.driver.find_element_by_xpath('//*[@id="captcha"]/div/div[3]/div[2]') webdriver.ActionChains(self.driver).move_to_element(self.slider).perform() time.sleep(0.5) img = self.driver.find_element_by_xpath('//*[@id="login-modal"]/div/div/div/div[2]/div[1]/div[2]/div[1]/div/div[1]/div[2]/div[1]/a[2]/div[1]') if 'show' in img.get_attribute('class'): res = img.screenshot_as_png return Image.open(BytesIO(res)) else: raise ValueError('获取验证码背景图片失败') def get_cut_image(self): """ 点击滑动按钮获取有缺口图片 :param driver: webdriver :return: 返回验证码有缺口图片的Image对象 """ webdriver.ActionChains(self.driver).move_to_element_with_offset(self.slider, xoffset=5, yoffset=5).click_and_hold(self.slider).perform() # webdriver.ActionChains(self.driver).click_and_hold(self.slider).perform() time.sleep(0.1) img = self.driver.find_element_by_xpath('//*[@id="login-modal"]/div/div/div/div[2]/div[1]/div[2]/div[1]/div/div[1]/div[2]/div[1]/a[1]/div[1]') res = img.screenshot_as_png # cut_img = Image.open(BytesIO(res)) return Image.open(BytesIO(res)) def get_distance(self, full_image, cut_image): full_pixies = full_image.load() cut_pixies = cut_image.load() w, h = full_image.size # full_img.show() # cut_img.show() full_image.save('full.png') cut_image.save('cut.png') # 先找最左边不同的点 left = [] for j in range(h): for i in range(100): if abs(full_pixies[i, j][0] - cut_pixies[i, j][0]) + abs( full_pixies[i, j][1] - cut_pixies[i, j][1]) + abs( full_pixies[i, j][2] - cut_pixies[i, j][2]) > 150: left.append((i, j)) # print(left) # break if left: break right = [] # 再找最右边不同的点 for j in range(h): for i in range(100, w): if abs(full_pixies[i, j][0] - cut_pixies[i, j][0]) + abs( full_pixies[i, j][1] - cut_pixies[i, j][1]) + abs( full_pixies[i, j][2] - cut_pixies[i, j][2]) > 150: right.append((i, j)) # print(right) # break if right: break length = right[0][0] - left[0][0] return length def get_track(self, distance): ''' 拿到移动轨迹,模仿人的滑动行为,先匀加速后匀减速 匀变速运动基本公式: ①v=v0+at ②s=v0t+(1/2)at² ③v²-v0²=2as :param distance: 需要移动的距离 :return: 存放每0.2秒移动的距离 ''' # 初速度 v=0 # 单位时间为0.2s来统计轨迹,轨迹即0.2内的位移 t=0.3 # 位移/轨迹列表,列表内的一个元素代表0.2s的位移 tracks=[] # 当前的位移 current=0 # 到达mid值开始减速 mid=distance * 5/8 distance += 10 # 先滑过一点,最后再反着滑动回来 # a = random.randint(1,3) while current < distance: if current < mid: # 加速度越小,单位时间的位移越小,模拟的轨迹就越多越详细 a = random.randint(1,3) # 加速运动 else: a = -random.randint(2,4) # 减速运动 # 初速度 v0 = v # 0.2秒时间内的位移 s = v0*t+0.5*a*(t**2) # 当前的位置 current += s # 添加到轨迹列表 tracks.append(round(s)) # 速度已经达到v,该速度作为下次的初速度 v= v0+a*t # 反着滑动到大概准确位置 for i in range(4): tracks.append(-random.randint(1,3)) # for i in range(4): # tracks.append(-random.randint(1,3)) random.shuffle(tracks) return tracks def captcha_check(self): full_image = self.get_full_image() time.sleep(1) cut_image = self.get_cut_image() distance = self.get_distance(full_image, cut_image) tracks = self.get_track(distance) return self.slide(tracks) def slide(self, tracks): # slider = self.driver.find_element_by_xpath('//*[@id="captcha"]/div/div[3]/div[2]') # 鼠标点击并按住不松 # webdriver.ActionChains(self.driver).click_and_hold(self.slider).perform() # 让鼠标随机往下移动一段距离 webdriver.ActionChains(self.driver).move_by_offset(xoffset=0, yoffset=100).perform() time.sleep(0.15) for item in tracks: webdriver.ActionChains(self.driver).move_by_offset(xoffset=item, yoffset=random.randint(-2,2)).perform() # 稳定一秒再松开 time.sleep(1) webdriver.ActionChains(self.driver).release(self.slider).perform() time.sleep(1) # 随机拿开鼠标 webdriver.ActionChains(self.driver).move_by_offset(xoffset=random.randint(200, 300), yoffset=random.randint(200, 300)).perform() time.sleep(0.2) info = self.driver.find_element_by_xpath('//*[@id="login-modal"]/div/div/div/div[2]/div[1]/div[2]/div[1]/div/div[1]/div[2]/div[2]/div/div[2]/span[1]') if '验证通过' in info.text: return 1 if '验证失败' in info.text: return 2 if '再来一次' in info.text: return 3 if '出现错误' in info.text: return 4 if __name__ == '__main__': hx = HuXiu() while True: res = hx.captcha_check() if res == 1: print('验证成功') break # elif res == 2: # print('验证失败,5秒后重试') # time.sleep(3) # elif res == 3: # print('刷新验证码,10秒后重试') # time.sleep(10) else: print('刷新页面重试') hx.load_captcha() time.sleep(5)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。