当前位置:   article > 正文

猫眼爬虫-验证码解决问题_猫眼网爬虫没有抓取到是因为验证码

猫眼网爬虫没有抓取到是因为验证码

最近猫眼可能发现了我这篇博客,把验证码关闭了,皆大欢喜。

而且爬虫开始肆无忌惮起来,有的时候都503 了

 

------------------------------------------------------

 

众多帖子中,都拿猫眼来做爬虫,爬虫内容都大同小异的,这个说猫眼的数字编码有门道,那个说猫眼TOP100数据随便拿。或者就是猫眼专业版的信息怎么获取,但是真正的猫眼网站,就你们平时买电影票的网站就没有光顾过么?

公司需要,爬了猫眼的电影排期网站,遍历了一个城市的所有影院的电影排期,到最后的时候发现,有的页面开始了验证马识别,具体是怎么触发机器人验证码识别还没有找到原因,但是就有需要你填入验证码一次,成功的一次,然后才可以正常的访问猫眼的电影网页。

那么如何解决呢,分析了一下页面规则,发现就是一个验证码,一个数据post

看起来很简单的样子,try一try

但是,远没有你想的那么简单。

图片验证码不是固定的图片,而是一个url,每次重新获取这个url的时候都会刷新一个新的验证码,也就是说,页面显示的验证码和你现在通过url下载下来的验证码根本就不是一个东西。查看了cookie和post信息,完全都没有差异,那怎么玩?

当然验证识别的问题,直接交给解码平台了,能靠钱解决的问题,为什么要自己费劲巴力的写。

最后的解决办法很奇葩,类似自动化测试一样的调用了senlium,打开了一个网页,然后咔咔咔截图,将验证码的部分截取出来,再将截出来的验证码图片发送给解码平台,解码平台数据返回验证码内容,再通过senlium重新将数据填回去,click。

事情就这么完事大吉的解决了。对了我用python

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/608213
推荐阅读
相关标签
  

闽ICP备14008679号