赞
踩
最近猫眼可能发现了我这篇博客,把验证码关闭了,皆大欢喜。
而且爬虫开始肆无忌惮起来,有的时候都503 了
------------------------------------------------------
众多帖子中,都拿猫眼来做爬虫,爬虫内容都大同小异的,这个说猫眼的数字编码有门道,那个说猫眼TOP100数据随便拿。或者就是猫眼专业版的信息怎么获取,但是真正的猫眼网站,就你们平时买电影票的网站就没有光顾过么?
公司需要,爬了猫眼的电影排期网站,遍历了一个城市的所有影院的电影排期,到最后的时候发现,有的页面开始了验证马识别,具体是怎么触发机器人验证码识别还没有找到原因,但是就有需要你填入验证码一次,成功的一次,然后才可以正常的访问猫眼的电影网页。
那么如何解决呢,分析了一下页面规则,发现就是一个验证码,一个数据post
看起来很简单的样子,try一try
但是,远没有你想的那么简单。
图片验证码不是固定的图片,而是一个url,每次重新获取这个url的时候都会刷新一个新的验证码,也就是说,页面显示的验证码和你现在通过url下载下来的验证码根本就不是一个东西。查看了cookie和post信息,完全都没有差异,那怎么玩?
当然验证识别的问题,直接交给解码平台了,能靠钱解决的问题,为什么要自己费劲巴力的写。
最后的解决办法很奇葩,类似自动化测试一样的调用了senlium,打开了一个网页,然后咔咔咔截图,将验证码的部分截取出来,再将截出来的验证码图片发送给解码平台,解码平台数据返回验证码内容,再通过senlium重新将数据填回去,click。
事情就这么完事大吉的解决了。对了我用python
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。