当前位置:   article > 正文

Hcaptcha 自动识别/打码解决方案

hcaptcha

一、什么是Hcaptcha?

看以下两幅图就知道什么是hcaptcha了。第一幅图可能是隐藏式的,也可能是显示的。

 

 

二、Hcaptcha验证流程

1.环境检测

        如果环境检测得分高,直接可以获得Token,该步骤是否能获得token,主要取决四大因素。1.浏览器指纹信息  2.行为数据 3.ip质量 4.网站设置的安全级别。 如果网站设置每次必定出现图像识别验证,那1、2、3再好也没用。其中浏览器信息中如果检测到有自动脚本如:selenium等,则必定出现验证码。

2.图像识别

        如果第一步通不过,则会进入第二部图像识别,进一步人工环节。图像识别两大因素:识别结果和得分。即使返回了Token,不代表通过了认证,有一些网站认证级别比较高,如果得分低,照样失败。直接得分参考环境检测中的前三项。

        目前AI模型已经很成熟,基本上找一个就能达到不错的效果。

3. 429错误,或者请求一直无响应

      那说明IP地址已经被关小黑屋了,需要一段时间才能放出来。所以赶紧换IP吧。

三、如何实现自动识别

        实现自动识别的前提条件必须已经训练出模型,并要求正确率至少95%以上,不然识别效果达不到预期效果。正确率能达到99%基本上就拆不多了

基础方案一: 浏览器脚本+图像识别

        这个是最简单的的方式,通过自动脚本如selenium,打开网站之后如果检测到图像识别,然后采集图像信息,提交给AI模型进行识别,然后对识别结果进行模拟点击。

        基本上这个方案是最稳妥的方案,通过率和得分(脚本对得分权重比较低,但是一定会出现验证码)都比较高。是一个万能解决方案。

进阶方案二: 浏览器插件+图像识别

        这个方案和第一个方案差不多,无非是脚本写成一个浏览器插件,然后该插件实现检查到图像识别任务后,采集图片,把数据提交给AI模型进行识别,然后也是模拟点击进行提交即可。该方案相对方案一来说,可以是轻量型解决方案,运气好可能不会出现图像识别。

顶级方案三:协议+图像识别

        方案一和方案二都是需要借助浏览器来进行打码,通过协议效果高,占用资源少等优势。

        Hcaptcha每次请求都会返回一个req,然后下次请求会附带req、环境信息、还有一个重要的n值。环境信息没有任何加密,随便模仿即可。环境信息模仿的好加上高质量ip可能不用图像识别即可通过。

        协议方面没有什么安全防控,,核心只要解决n值的算法,通过源码分析,n值是通过req计算出来。

四、学习测试

浙江丹里科技:核心解决验证码和突破各种安全防线,目前Hcaptcha已经提供了相关接口可以直接调用获取。 其他验证码正在逐步上线中,,,

详情请见官网:解决反人类验证码hcaptcha、akamai2.0

接口文档说明:akamai - Confluence

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/287290
推荐阅读
相关标签
  

闽ICP备14008679号