赞
踩
requests 库是一个 python中比较有名的 http请求的库,能处理 get,post,put,delete 等 restful请求,能设置 header,cookie,session 等操作,也是作为爬虫的基础库,它目前还不能异步请求,如果要支持异步,官网文档上也说,用 httpx 等代替。官方文档网址:https://requests.readthedocs.io/en/latest/
pip install requests
requests.get(url,headers={User-Agent:xxxx})
requests.get(url,params={param1: xxxx, param2:xxx2})
网站经常利用请求头中的 Cookie 字段来做用户访问状态的保持,那么我们可以在 headers 参数中添加 Cookie,模拟普通用户的请求。我们以 github 登录为例:
response = requests.get(url,cookies)
使用 requests获取的 response 对象,具有 cookie 属性。该属性是一个 cookieJar 类型,包含了对方服务器设置在本地的 cookie。可以将其转换成 cookies 字典
response = requests.get(url)中 response是发送请求获取的响应对象;response 响应对象中除了 text、content获取响应内容意外还有其他常用的属性或方法:
前边提到 proxy 参数指定的代理 ip指向的是正向的代理服务器,那么响应的就有反向服务器;现在来了解正向和反向这两者的区别
REMOTE_ADDR = 代理IP
HTTP_VIA = 代理IP
HTTP_X_FORWARDED_FOR = 你的真实IP
2. 匿名代理(Anonymous Proxy):使用匿名代理,别人只能直到你用了代理,无法直到你是谁。目标服务器接收到的请求头付下
REMOTE_ADDR = 代理IP
HTTP_VIA = 代理IP
HTTP_X_FORWARDED_FOR = 代理IP
3. 高匿代理(Elite proxy 或 High Anonymity Proxy):高匿代理让别人无法发现你在用代理,所以是最好的选择。毫无疑问使用高匿代理效果最好,费用也昂贵,目标服务器接收到的请求头如下:
REMOTE_ADDR = 代理IP
HTTP_VIA = not datermined
HTTP_X_FORWARDED_FOR = not determined
为了让服务器以为不是同一个客户端在请求;为了防止频繁像一个域名发送请求被封 ip,所以我们需要使用代理 ip;
resp = requests.get(url,proxies=proxies_dict)
proxies_dict = {
"http:": "http://xxx.xxx.xx.xx:33502",
"https": "https://xx.xx.xx.xxx1:33220"
}
requests 模块中的 Session类能够自动处理发送请求获取响应过程中产生的 cookie,进而达到状态保持的目的。接下来我们来学习它
session 实例在请求了一个网站后,对方服务器设置在本地 cookie 会保存在 session 中,下一次再使用 session请求对方服务器的时候,会带上前一次的 cookie
# 实例化 session 对象
session = requests.session()
response = session.get(url,headers, ...)
response = session.post(url,data,headers, ...)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。