赞
踩
chromedriver的版本一定要与Chrome的版本一致,不然就不起作用。
有两个下载地址:
1、http://chromedriver.storage.googleapis.com/index.html
当然,你首先需要查看你的Chrome版本,在浏览器中输入chrome://version/
放chromedriver在chrome安装目录
默认目录一般为:C:\Program Files\Google\Chrome\Application
- from selenium import webdriver
- from selenium.webdriver.common.by import By
- browser = webdriver.Chrome()
- browser.get(a[0])#填url
- time.sleep(3)
- b=browser.page_source
- print(b)
- # 添加UA
- options.add_argument('user-agent="MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"')
-
- # 指定浏览器分辨率
- options.add_argument('window-size=1920x3000')
-
- # 谷歌文档提到需要加上这个属性来规避bug
- chrome_options.add_argument('--disable-gpu')
-
- # 隐藏滚动条, 应对一些特殊页面
- options.add_argument('--hide-scrollbars')
-
- # 不加载图片, 提升速度
- options.add_argument('blink-settings=imagesEnabled=false')
-
- # 浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
- options.add_argument('--headless')
-
- # 以最高权限运行
- options.add_argument('--no-sandbox')
-
- # 手动指定使用的浏览器位置
- options.binary_location = r"C:Program Files (x86)GoogleChromeApplicationchrome.exe"
-
- #添加crx插件
- option.add_extension('d:crxAdBlock_v2.17.crx')
-
- # 禁用JavaScript
- option.add_argument("--disable-javascript")
-
- # 设置开发者模式启动,该模式下webdriver属性为正常值
- options.add_experimental_option('excludeSwitches', ['enable-automation'])
-
- # 禁用浏览器弹窗
- prefs = {
- 'profile.default_content_setting_values' : {
- 'notifications' : 2
- }
- }
- options.add_experimental_option('prefs',prefs)
-
- # 添加代理 ip
- options.add_argument("--proxy-server=http://XXXXX.com:80")
-
- driver = webdriver.Chrome(chrome_options=chrome_options)
- content=browser.find_element(value='//*[@id="img-content"]',by=By.XPATH)
- print(content.text)
- chrome_opts = webdriver.ChromeOptions()
- chrome_opts.add_argument("--headless")
- browser = webdriver.Chrome(options=chrome_opts)
- browser = webdriver.Chrome(options=chrome_opts)
- browser.minimize_window()
- ming=''.join(random.choice(string.ascii_letters+ string.digits) for _ in range(12))
- print(ming)
- browser.find_element(value='//*[@id="name"]', by=By.XPATH).send_keys(ming)
- browser.find_element(value='//*[@id="email"]', by=By.XPATH).send_keys(ming+'@qq.com')
-
- browser.find_element(value='//*[@id="imtype"]', by=By.XPATH).click()
- time.sleep(1)
- browser.find_element(value='/html/body/div[1]/div/section/div/div[6]/div/div/ul/li[2]/a', by=By.XPATH).click()
browser.find_element(value='//*[@id="rso"]/div[1]/div/div[1]/div/div/div[1]/div/a/h3', by=By.XPATH).click()
f = open('test.txt', 'a') f.write('Hello Everyone\n') f.close()
当使用Selenium爬取一些页面时,有些页面加载速度特别慢,而我们又不需要等待页面完全加载完毕。
此时可以通过driver.set_page_load_timeout()
来设置页面超时时间。
捕获异常,并执行js脚本window.stop()
即可实现,代码如下。
- from selenium import webdriver
-
- driver = webdriver.Chrome()
- driver.set_page_load_timeout(3)
-
- try:
- driver.get('https://hk.louisvuitton.com/zht-hk/homepage')
- print('finish load ....')
- except Exception:
- driver.execute_script('window.stop()')
- print(driver.title)
- finally:
- driver.quit()
使用 CDP(Chrome Devtools-Protocol),您可以在 JS 文件(检测器)加载框架之前运行代码。因此,使用这些代码删除“webdriver True”属性:
- Object.defineProperty(navigator, 'webdriver', {
- get: () => undefined
- })
关键代码:
- from selenium.webdriver import Chrome
- driver = Chrome('D://chromedriver.exe')
- driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
- "source": """
- Object.defineProperty(navigator, 'webdriver', {
- get: () => undefined
- })
- """
- })
- driver.get('http://pythonlearner.com')
但是,如果您现在将 Chrome 升级到 88。上面提到的方法将毫无用处。幸运的是,我们仍然有一个解决方案(添加此代码)
chrome_options.add_argument("--disable-blink-features=AutomationControlled")
- from seleniumwire import webdriver
-
- browser = webdriver.Chrome("chromedriver.exe")
- browser.request_interceptor = interceptor_request
- browser.response_interceptor = interceptor_response
- browser.get("http://localhost:8088/inner/t4")
-
- for request in browser.requests:
- print(request.url)
- print(request.response.body)
- #opencv基础操作
- import cv2
- #图像的基本操作
- #图像的读取
- #img cv2.imread(''")
- #查看对应的像素
- #img[120,120]
- img[120,120]=[255,255,0]
- #修改图像尺寸
- resized=cv2.resize(img,(960,540))
- #修改窗口尺寸
- cv2.namedWindow("img",0)
- cv2.resizeWindow("img",640,480)
- #图像展示
- #cv2.imshow('img',img)
- #图像写入
- cv2.imwrite('',img)
- cv2.imencode('.jpg',img)[1].tofile('')
- #等待用户按下任意键的时间
- cv2.waitKey()#括号里的是时间,单位是ms
- #销毁窗口
- cv2.destroyAlLWindows()#销毁当前所有正在显示的窗口
#1、隐藏Chrome 正受到自动测试软件的控制 chrome_options = webdriver.ChromeOptions() chrome_options.add_experimental_option('excludeSwitches', ['enable-automation']) browser = webdriver.Chrome(options=chrome_options)
有时候我们在某个界面点击F12后,页面会出现下面这样的按钮,导致无法对界面进行实时操作:
我使用的是edge浏览器,解决办法如下:
点击上面的禁止按钮,再点击一下页面上下面的按钮就可以了!
Playwright 为现代 web 应用提供了跨浏览器、快速且可靠的端到端的测试能力。 | Playwright 中文文档 | Playwright 中文网
参考:selenium 安装与 chromedriver安装 - Rogn - 博客园 (cnblogs.com)
python 用seleniumwire模块获取网站登陆后的请求头token字符串数据_井底 之鱼的博客-CSDN博客
【浅记】使用seleniumwire滑动极兔滑块_seleniumwire拖动滑动_Docda的博客-CSDN博客
https://www.cnblogs.com/qlqwjy/p/16519286.html
python selenium 保存网页缓存,保持登录 https://www.cnblogs.com/royfans/p/16714805.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。