赞
踩
超级鹰链接:https://www.chaojiying.com/
这里的headersURL就是登陆的url接口
登陆进去所需要的参数
这张图片就是说明这个网页有MD5的反爬机制存在
这前面那两个参数,都是渲染隐藏在网页标签内的,直接在网页数据源码进行查找就可以
import requests 是导入一个请求库,用来对网页发起请求
bs4 是一个数据解析库,用来解析网页源代码,从而获取自己需要的数据
超级鹰client是这个验证码第三方打码平台里面一个类,我将它导入过来识别我们的验证码
from hashlib import md5 是一个加密算法,你导入的这个类就是需要导入这个库才能实现
向古诗文网页发起请求 User-Agent就是伪装客户端对网页模拟客户端登录
这一段是对数解析,这里首先是利用bs4解析库创建了一个soup对象,从网页源代码中获取所需要的数据,但是要注意soup返回的是一个数组对象
attrs是获取标签属性的值
此处实例化一个session()对象是因为,我们网页登录每次请求网页验证码都会更新,所以我们要实例化一个session对象让服务器知道是同一客户端对网页发起的请求
session对象是一种会话对象,用来记录每个客户端的访问状态,其实,HTTP协议是一种无状态协议,也就是客户端向服务器发送一个请求request,然后服务器返回一个相应response,之后这个连接就会被关闭,两者也没有任何关系了,也就是服务器中不会存储此次请求的有关信息,再次请求时服务器就无法知道这次请求和上次请求是否是一个客户了。所以我们就需要采用会话session来记录这次连接的信息了。
一个客户端访问服务器时,可能会在这个服务器的多个页面之间不断刷新、反复连接同一个页面或者向一个页面提交信息,有了session的记录,服务器就可以知道这就是同一个客户端在完成动作罢了
利用超级鹰识别上面保存的验证码图片
这里就是直接对古诗文网发起请求,为了与前面登录的请求同步所以这里也是用session发起的post请求,最后将获取的古诗文数据源码保存至gushiwen.html文件中,为了测试是否已经获取到了数据源码可以用浏览器打开这个html文件
能开到此界面就说明成功进入了古诗文网
本篇文章主要就是学习验证码识别的第三方打码平台超级鹰,以及MD5加密算法,古诗文网的模拟客户端登录,在下篇文章我会继续给大家分享一些干货
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。