赞
踩
近期要爬取一个网站的数据,嗯?需要登陆才能爬取,那怎么办呢?突然灵光一闪,百度了一下发现python+selenium+PIL可以解决这个问题,为了以后需要使用的时候能给做到有资料可查,在这里就做下简单的记录吧!
这种方式有个弊端,就是可能标识的cookie会变,在下次登陆中不能登陆成功。
- from selenium import webdriver
- #引入selenium模块
- opt = webdriver.ChromeOptions()
- opt.set_headless()
- #设置不在前台打开chrome浏览器
- driver = webdriver.Chrome('G:/py_2019\Reptile/Reptile001/chrome/chromedriver.exe',options=opt)
- #使用chrome引擎,并指定chromedriver所在位置
- driver.maximize_window()
- #chrome浏览器窗口最大化
- cookies1 = {'httpOnly': True, 'path': '/', 'secure': False, 'name': 'JSESSIONID', 'domain': 'www.xxxxx.org', 'value': 'xxxxxxxxxxxxxxxxxxxx'}
- cookies2 = {'httpOnly': False, 'name': 'loginname', 'path': '/', 'secure': False, 'expiry': 1
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。