当前位置:   article > 正文

Python爬虫系列之Session和cookie的使用_python 'cookie': f'session_id={session_id}

python 'cookie': f'session_id={session_id}

对于经常做数据采集的技术员来说,常常遇到采集的页面限制我们的访问,尤其在频繁刷新或者访问一个页面时会引起网站的一些列反爬措施。今天我们就来谈谈 Session 和 cookie 的在python爬虫中的相关知识。

cookie的基本知识想必大家做爬虫的都很清楚,关于Session这里可以好好的解释下,Session最简单的理解就是会话,主要作用就是用来记录一个用户在目标网站上的一些行为、一些状态,而这些用户状态可以利用Cookie中的Session ID来标识。

在这里插入图片描述

cookie和Session一般会在网站的反爬中应用中比较常见。

在访问某些网站的时候,是需要先进行登录才能进行下一步操作的。如果利用爬虫程序模拟人登陆的行为,主要有以下三种:

1、 爬虫代码里通过request.post里的参数data中,有自己的登录的账号信息。

2、访问页面的时候,从header是中找到cookie并复制,写到python脚本里的headers中,但是在使用过程中cookie的时效性也是需要考虑的。

3、通过session方法,是比较推荐的一种方式,比如python使用Keep-Alive保持相同代理IP进行采集,并进行状态判断,失败后重新发起。

代码如下:

#! -- encoding:utf-8 -- import requests import requests.adapters import time # 导入time模块,用于等待

#要访问的目标页面
targetUrlList = [ “https://httpbin.org/ip”, “https://httpbin.org/headers”, “https://httpbin.org/user-agent”, ]

#爬虫ip服务器(测试链接 http://jshk.com.cn/mb/reg.asp?kefu=xjy)
proxyHost = “http://jshk.com.cn” proxyPort =30008#爬虫ip验证信息
proxyUser = “huake” proxyPass = “hk123” proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"

#设置 http和https访问都是用爬虫ip
proxies = { “http”: proxyMeta, “https”: proxyMeta, }

#设置爬虫ip和重试策略
adapter = requests.adapters.HTTPAdapter( proxy=proxies, max_retries=3 )

#访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IP
with requests.session() as s: # 设置cookie # cookie_dict = {“JSESSION”:“123456789”} # cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True) # s.cookies = cookies

# 为session设置代理和重试策略
s.mount("http://", adapter)
s.mount("https://", adapter)

for i in range(3):
    for j, url in enumerate(targetUrlList):
        r = s.get(url)
        # 判断状态码是否为200,如果不是,等待1秒后重试
        while r.status_code != 200: # 添加循环条件
            print(f"第{i+1}次访问第{j+1}个网站的状态码为{r.status_code},等待1秒后重试")
            time.sleep(1) # 等待1秒
            r = s.get(url) # 重新发起请求
        print(f"第{i+1}次访问第{j+1}个网站的结果:")
        print(r.text)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/450944
推荐阅读
相关标签
  

闽ICP备14008679号