赞
踩
今天试着爬取房天下小区,发现requests访问,得不到页面,selenium访问会出现验证码页面,试着用selenium加了cookie之后访问,没有验证码页面了,得到页面数据
1.selenium获取并添加cookie
import requests from bs4 import BeautifulSoup import time from selenium import webdriver for page in range(1,3): url='https://cd.esf.fang.com/housing/__0_0_0_0_{}_0_0_0/'.format(str(page)) driver=webdriver.Chrome() driver.get(url) time.sleep(3) #获取所有cookie,是一个列表,可能是一个或多个字典形式cookie cookies=driver.get_cookies() print(cookies) cookie=cookies[0] print(cookie) driver.add_cookie(cookie) #此时携带者cookie的driver再次访问网址 driver.get(url) time.sleep(3) page=driver.page_source print(page)
2,requests
我之前用requssts处理cookie方面问题都是这样:
session=requests.session()
rq=session.get(url,header=header)
....
但是这次不行,不知道为啥。。
我这么懒,能出来数据就行,至于用requests出不来的原因,有大佬知道的话,希望能够提点一下,不胜感激
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。