赞
踩
由于本人只使用Edge浏览器,所以在得知Selenium对PantomJS的支持取消后,在网上找了各种关于Edge浏览器的资料。配置Selenium Edge有多种方法,但这里只介绍一种方法。
此处需要注意将浏览器更新到最新版本,以及选择正确的下载通道
解压下载的压缩包后会得到名为 msedgedriver.exe 的可执行程序,将这个程序放在任意一个地方,并将该文件所在的路径加入到系统的环境变量中
这个是我的 msedgedriver.exe 存放地址
环境变量设置好之后重启电脑,如果没有出错,在cmd中输入msedgedriver将不会报错
- pip install selenium>=4.3.0
- # 也可以是下面的
- pip install selenium
需要注意的是selenium的版本要在4.0以上(其实3.0~4.0也可以,但是需要安装额外的库,为了简单,直接安装selenium4
- from selenium import webdriver
- browser = webdriver.Edge()
- url = "https://baidu.com"
- browser.get(url)
出现上面的界面就说明selenium正常工作
如果不设置无头浏览器模式,在Selenium控制浏览器工作时浏览器的一举一动都会显示出来,会占用电脑的gpu。在调试代码时,浏览器的GUI界面能够提供帮助,但是在爬虫工作时,浏览器的GUI就显得多余了,关闭GUI可以节省一部分计算资源。
- 导入selenium库
- from selenium import webdriver
- # 在这里导入浏览器设置相关的类
- from selenium.webdriver.edge.options import Options
-
- # 无可视化界面设置 #
-
- edge_options = Options()
- # 使用无头模式
- edge_options.add_argument('--headless')
- # 禁用GPU,防止无头模式出现莫名的BUG
- edge_options.add_argument('--disable-gpu')
-
- # 将参数传给浏览器
- browser = webdriver.Edge(options=edge_options)
-
- # 启动浏览器
- url = "https://baidu.com"
- browser.get(url)
- print(browser.title)
-
- # 关闭浏览器
- browser.quit()
正常情况下会输出 “百度一下,你就知道”
有时候,我们利用 Selenium 自动化爬取某些网站时,极有可能会遭遇反爬。
实际上,我们使用默认的方式初始化 WebDriver 打开一个网站,下面这段 JS 代码永远为 True,而手动打开目标网站的话,则为:False。
上图是手动打开浏览器
下图是通过selenium打开浏览器
稍微有一点反爬经验的工程师利用上面的差别,很容易判断访问对象是否为一个爬虫,然后对其做反爬处理,返回一堆脏数据或各种验证码。
反检测代码如下
- 导入selenium库
- from selenium import webdriver
- # 在这里导入浏览器设置相关的类
- from selenium.webdriver.edge.options import Options
-
- # 反检测设置 #
-
- edge_options = Options()
-
- # 开启开发者模式
- edge_options.add_experimental_option('excludeSwitches', ['enable-automation'])
- # 禁用启用Blink运行时的功能
- edge_options.add_argument('--disable-blink-features=AutomationControlled')
-
-
- # 将参数传给浏览器
- browser = webdriver.Edge(options=edge_options)
-
- # 启动浏览器
- url = "https://intoli.com/blog/not-possible-to-block-chrome-headless/chrome-headless-test.html"
- browser.get(url)
-
代码中url所指网站可以检测浏览器是否通过selenium控制,如果未检测出selenium控制,则"WebDriver"一栏为绿色。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。