当前位置:   article > 正文

爬虫怎样绕过验证码?_爬虫如何绕过验证码

爬虫如何绕过验证码

1,cookie登录

利用cookie的特性:cookie会保持较长的时间,来避免用户频繁登录

cookie一般由前端开发用js生成,可以利用抓包尝试下破解,不过这个难度有点高,不过破解js本就是爬虫必须直面面对的

2OCR库里的tesseract(光学文字识别)可以解决大多数的传统验证码

软件tesserract-ocr先安装,然后安装pytesserract类库

注意:

1Windows需要下载软件安装包,再配置环境变量             

2linux  直接在命令窗口输入:sudo apt-get tesseract-ocr

模拟浏览器,selenium和PIL库的截屏功能,来识别验证码(save_screenshot截图)

3打码平台

打码兔和QQ超人打码,有提供Python的接入方式,人工打码平台需要收费。

以QQ超人打码平台,先要注册开发者账号,在识别程序中需要填写个人账号进行认证计费,登录之后接入,开始计费(一个码六分钱)

4selenium 来模拟拉动来破解滑动验证码

由于时间过久,滑动验证码已经更改,滑动验证码已经被放弃,现仅供参考使用 

  1. from PIL import Image
  2. from time import sleep
  3. from selenium import webdriver
  4. from selenium.webdriver.common.by import By
  5. from selenium.webdriver import ActionChains
  6. from selenium.webdriver.support.wait import WebDriverWait
  7. from selenium.webdriver.support import expected_conditions as EC
  8. from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
  9. import random
  10. headers = {
  11. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
  12. }
  13. chrome_options = webdriver.ChromeOptions()
  14. chrome_options.add_experimental_option('w3c', False)
  15. caps = DesiredCapabilities.CHROME
  16. caps['loggingPrefs'] = {'performance': 'ALL'}
  17. class SliderVerificationCode(object):
  18. def __init__(self): # 初始化一些信息
  19. self.left = 60 # 定义一个左边的起点 缺口一般离图片左侧有一定的距离 有一个滑块
  20. self.url = 'https://passport.bilibili.com/login'
  21. self.driver = webdriver.Chrome(executable_path='C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')
  22. self.wait = WebDriverWait(self.driver, 20) # 设置等待时间20秒
  23. self.phone = "17369251763"
  24. self.passwd = "abcdefg"
  25. def input_name_password(self): # 输入账号密码
  26. self.driver.get(self.url)
  27. self.driver.maximize_window()
  28. input_name = self.driver.find_element_by_xpath("//input[@id='login-username']")
  29. input_pwd = self.driver.find_element_by_xpath("//input[@id='login-passwd']")
  30. input_name.send_keys("username")
  31. self.wait = WebDriverWait(self.driver, 3)
  32. input_pwd.send_keys("passport")
  33. def click_login_button(self): # 点击登录按钮,出现验证码图片
  34. login_btn = self.driver.find_element_by_class_name("btn-login")
  35. sleep(random.randint(3, 6))
  36. login_btn.click()
  37. def get_geetest_image(self): # 获取验证码图片
  38. gapimg = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_bg')))
  39. sleep(2)
  40. gapimg.screenshot(r'./captcha1.png')
  41. # 通过js代码修改标签样式 显示图片2
  42. js = 'var change = document.getElementsByClassName("geetest_canvas_fullbg");change[0].style = "display:block;"'
  43. self.driver.execute_script(js)
  44. sleep(2)
  45. fullimg = self.wait.until(
  46. EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_slice')))
  47. fullimg.screenshot(r'./captcha2.png')
  48. def is_similar(self, image1, image2, x, y):
  49. '''判断两张图片 各个位置的像素是否相同
  50. #image1:带缺口的图片
  51. :param image2: 不带缺口的图片
  52. :param x: 位置x
  53. :param y: 位置y
  54. :return: (x,y)位置的像素是否相同
  55. '''
  56. # 获取两张图片指定位置的像素点
  57. pixel1 = image1.load()[x, y]
  58. pixel2 = image2.load()[x, y]
  59. # 设置一个阈值 允许有误差
  60. threshold = 60
  61. # 彩色图 每个位置的像素点有三个通道
  62. if abs(pixel1[0] - pixel2[0]) < threshold and abs(pixel1[1] - pixel2[1]) < threshold and abs(
  63. pixel1[2] - pixel2[2]) < threshold:
  64. return True
  65. else:
  66. return False
  67. def get_diff_location(self): # 获取缺口图起点
  68. captcha1 = Image.open('captcha1.png')
  69. captcha2 = Image.open('captcha2.png')
  70. for x in range(self.left, captcha1.size[0]): # 从左到右 x方向
  71. for y in range(captcha1.size[1]): # 从上到下 y方向
  72. if not self.is_similar(captcha1, captcha2, x, y):
  73. return x # 找到缺口的左侧边界 在x方向上的位置
  74. def get_move_track(self, gap):
  75. track = [] # 移动轨迹
  76. current = 0 # 当前位移
  77. # 减速阈值
  78. mid = gap * 4 / 5 # 前4/5段加速 后1/5段减速
  79. t = 0.2 # 计算间隔
  80. v = 0 # 初速度
  81. while current < gap:
  82. if current < mid:
  83. a = 5 # 加速度为+5
  84. else:
  85. a = -5 # 加速度为-5
  86. v0 = v # 初速度v0
  87. v = v0 + a * t # 当前速度
  88. move = v0 * t + 1 / 2 * a * t * t # 移动距离
  89. current += move # 当前位移
  90. track.append(round(move)) # 加入轨迹
  91. return track
  92. def move_slider(self, track):
  93. slider = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.geetest_slider_button')))
  94. ActionChains(self.driver).click_and_hold(slider).perform()
  95. for x in track: # 只有水平方向有运动 按轨迹移动
  96. ActionChains(self.driver).move_by_offset(xoffset=x, yoffset=0).perform()
  97. sleep(1)
  98. ActionChains(self.driver).release().perform() # 松开鼠标
  99. def main(self):
  100. self.input_name_password()
  101. self.click_login_button()
  102. self.get_geetest_image()
  103. gap = self.get_diff_location() # 缺口左起点位置
  104. gap = gap - 6 # 减去滑块左侧距离图片左侧在x方向上的距离 即为滑块实际要移动的距离
  105. track = self.get_move_track(gap)
  106. self.move_slider(track)
  107. if __name__ == "__main__":
  108. springAutumn = SliderVerificationCode()
  109. springAutumn.main()

 

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/937889
推荐阅读
相关标签
  

闽ICP备14008679号