Hcaptcha 自动识别/打码解决方案

作者：2023面试高手 | 2024-03-22 10:30:33

踩

hcaptcha

一、什么是Hcaptcha？

看以下两幅图就知道什么是hcaptcha了。第一幅图可能是隐藏式的，也可能是显示的。

二、Hcaptcha验证流程

1.环境检测

如果环境检测得分高，直接可以获得Token，该步骤是否能获得token，主要取决四大因素。1.浏览器指纹信息 2.行为数据 3.ip质量 4.网站设置的安全级别。如果网站设置每次必定出现图像识别验证，那1、2、3再好也没用。其中浏览器信息中如果检测到有自动脚本如：selenium等，则必定出现验证码。

2.图像识别

如果第一步通不过，则会进入第二部图像识别，进一步人工环节。图像识别两大因素：识别结果和得分。即使返回了Token，不代表通过了认证，有一些网站认证级别比较高，如果得分低，照样失败。直接得分参考环境检测中的前三项。

目前AI模型已经很成熟，基本上找一个就能达到不错的效果。

3. 429错误，或者请求一直无响应

那说明IP地址已经被关小黑屋了，需要一段时间才能放出来。所以赶紧换IP吧。

三、如何实现自动识别

实现自动识别的前提条件必须已经训练出模型，并要求正确率至少95%以上，不然识别效果达不到预期效果。正确率能达到99%基本上就拆不多了

基础方案一：浏览器脚本+图像识别

这个是最简单的的方式，通过自动脚本如selenium，打开网站之后如果检测到图像识别，然后采集图像信息，提交给AI模型进行识别，然后对识别结果进行模拟点击。

基本上这个方案是最稳妥的方案，通过率和得分（脚本对得分权重比较低，但是一定会出现验证码）都比较高。是一个万能解决方案。

进阶方案二：浏览器插件+图像识别

这个方案和第一个方案差不多，无非是脚本写成一个浏览器插件，然后该插件实现检查到图像识别任务后，采集图片，把数据提交给AI模型进行识别，然后也是模拟点击进行提交即可。该方案相对方案一来说，可以是轻量型解决方案，运气好可能不会出现图像识别。

顶级方案三：协议+图像识别

方案一和方案二都是需要借助浏览器来进行打码，通过协议效果高，占用资源少等优势。

Hcaptcha每次请求都会返回一个req，然后下次请求会附带req、环境信息、还有一个重要的n值。环境信息没有任何加密，随便模仿即可。环境信息模仿的好加上高质量ip可能不用图像识别即可通过。

协议方面没有什么安全防控，，核心只要解决n值的算法，通过源码分析，n值是通过req计算出来。

四、学习测试

浙江丹里科技：核心解决验证码和突破各种安全防线，目前Hcaptcha已经提供了相关接口可以直接调用获取。其他验证码正在逐步上线中，，，

详情请见官网：解决反人类验证码hcaptcha、akamai2.0

接口文档说明：akamai - Confluence

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/287290