当前位置:   article > 正文

网络爬虫之DrissionPage工具_drissionpage开发者断点

drissionpage开发者断点

DrissionPage 是一个基于 python 的网页自动化工具

它既能控制浏览器,也能收发数据包,还能把两者合而为一。

可兼顾浏览器自动化的便利性和 requests 的高效率。

它功能强大,内置无数人性化设计和便捷功能。

它的语法简洁而优雅,代码量少,对新手友好。

DrissionPage的优点:

无 webdriver 特征,不会被网站识别 无需为不同版本的浏览器下载不同的驱动 运行速度更快 可以跨 iframe 查找元素,无需切入切出 把 iframe 看作普通元素,获取后可直接在其中查找元素,逻辑更清晰 可以同时操作浏览器中的多个标签页,即使标签页为非激活状态,无需切换 可以直接读取浏览器缓存来保存图片,无需用 GUI 点击另存 可以对整个网页截图,包括视口外的部分(90以上版本浏览器支持) 可处理非open状态的 shadow-root

语法:

WebPage是功能最全面的页面类,既可控制浏览器,也可收发数据包:

from DrissionPage import WebPage

如果只要控制浏览器,导入ChromiumPage

from DrissionPage import ChromiumPage

如果只要收发数据包,导入SessionPage

from DrissionPage import SessionPage
  • 配置

    ChromiumOptions类用于设置浏览器启动参数:

    from DrissionPage import ChromiumOptions

    SessionOptions类用于设置Session对象启动参数:

    from DrissionPage import SessionOptions

    动作链,用于模拟一系列键盘和鼠标的操作:

    from DrissionPage import ActionChains

    键盘按键类,用于键入 ctrl、alt 等按键:

    from DrissionPage import Keys

    easy_set里保存了一些便捷的 ini 文件设置方法,可选择使用:

    from DrissionPage.easy_set import *
  • 定位元素

    1. from DrissionPage import ChromiumPage
    2. # 创建页面对象,并启动或接管浏览器
    3. page = ChromiumPage()
    4. # 跳转到登录页面
    5. page.get('https://gitee.com/login')   # get()方法用于访问参数中的网址。它会等待页面完全加载,再继续执行后面的代码。
    6. # 定位到账号文本框,获取文本框元素
    7. ele = page.ele('#user_login')   # ele()方法用于查找元素,它返回一个ChromiumElement对象,用于操作元素。'#user_login'是定位符文本,#意思是按id属性查找元素。ele()内置了等待,如果元素未加载,它会执行等待,直到元素出现或到达时限。默认超时时间 10 秒。
    8. # 输入对文本框输入账号
    9. ele.input('您的账号')
    10. # 定位到密码文本框并输入密码
    11. page.ele('#user_password').input('您的密码')
    12. # 点击登录按钮
    13. page.ele('@value=登 录').click()   # @表示按属性名查找
  • 爬取网页

    1. from DrissionPage import SessionPage
    2. # 创建页面对象
    3. page = SessionPage()
    4. # 爬取3
    5. for i in range(1, 4):
    6.   # 访问某一页的网页
    7.   page.get(f'https://gitee.com/explore/all?page={i}')
    8.   # 获取所有开源库<a>元素列表
    9.   links = page.eles('.title project-namespace-path')   # 页面对象的eles()获取页面中所有class属性为'title project-namespace-path'的元素对象,eles()方法用于查找多个符合条件的元素,返回由它们组成的list
    10.   # 遍历所有<a>元素
    11.   for link in links:
    12.       # 打印链接信息
    13.       print(link.text, link.link)   # .text获取元素的文本,.link获取元素的href或src属性

  • 下载网页

    1. from DrissionPage import SessionPage
    2. url = 'https://www.baidu.com/img/flexible/logo/pc/result.png'
    3. save_path = r'C:\download'   # 保存的路径
    4. page = SessionPage()
    5. page.download(url, save_path, 'img') # 支持重命名,处理文件名冲突

  • 元素查找

    1. # 根据属性查找,@ 后面可跟任意属性
    2. page.ele('@id:ele_id', timeout=2) # 查找 id 为 ele_id 的元素,设置等待时间2秒  
    3. page.eles('@class') # 查找所有拥有 class 属性的元素
    4. page.eles('@class:class_name') # 查找所有 class 含有 ele_class 的元素
    5. page.eles('@class=class_name') # 查找所有 class 等于 ele_class 的元素
    6. # 根据 class 或 id 查找
    7. page.ele('#ele_id') # 等价于 page.ele('@id=ele_id')
    8. page.ele('#:ele_id') # 等价于 page.ele('@id:ele_id')
    9. page.ele('.ele_class') # 等价于 page.ele('@class=ele_class')
    10. page.ele('.:ele_class') # 等价于 page.ele('@class:ele_class')
    11. # 根据 tag name 查找
    12. page.ele('tag:li') # 查找第一个 li 元素  
    13. page.eles('tag:li') # 查找所有 li 元素  
    14. # 根据 tag name 及属性查找
    15. page.ele('tag:div@class=div_class') # 查找 class 为 div_class 的 div 元素
    16. page.ele('tag:div@class:ele_class') # 查找 class 含有 ele_class 的 div 元素
    17. page.ele('tag:div@class=ele_class') # 查找 class 等于 ele_class 的 div 元素
    18. page.ele('tag:div@text():search_text') # 查找文本含有 search_text 的 div 元素
    19. page.ele('tag:div@text()=search_text') # 查找文本等于 search_text 的 div 元素
    20. # 根据文本内容查找
    21. page.ele('search text') # 查找包含传入文本的元素  
    22. page.eles('text:search text') # 如文本以 @、tag:、css:、xpath:、text: 开头,则应在前加上 text: 避免冲突  
    23. page.eles('text=search text') # 文本等于 search_text 的元素
    24. # 根据 xpath 或 css selector 查找
    25. page.eles('xpath://div[@class="ele_class"]')  
    26. page.eles('css:div.ele_class')  
    27. # 根据 loc 查找
    28. loc1 = By.ID, 'ele_id'
    29. loc2 = By.XPATH, '//div[@class="ele_class"]'
    30. page.ele(loc1)
    31. page.ele(loc2)
    32. # 查找下级元素
    33. element = page.ele('@id:ele_id')
    34. element.ele('@class:class_name') # 在 element 下级查找第一个 class 为 ele_class 的元素
    35. element.eles('tag:li') # 在 ele_id 下级查找所有li元素
    36. # 根据位置查找
    37. element.parent # 父元素  
    38. element.next # 下一个兄弟元素  
    39. element.prev # 上一个兄弟元素  
    40. # 获取 shadow-root,把它作为元素对待。只支持 open 的 shadow-root
    41. ele1 = element.shadow_root.ele('tag:div')
    42. # 串连查找
    43. page.ele('@id:ele_id').ele('tag:div').next.ele('some text').eles('tag:a')
    44. # 简化写法
    45. eles = page('@id:ele_id')('tag:div').next('some text').eles('tag:a')
    46. ele2 = ele1('tag:li').next('some text')

  • 元素操作

    1. element.click(by_js) # 点击元素,可选择是否用 js 方式点击
    2. element.input(value) # 输入文本
    3. element.run_script(js) # 对元素运行 JavaScript 脚本
    4. element.submit() # 提交
    5. element.clear() # 清空元素
    6. element.screenshot(path, filename) # 对元素截图
    7. element.select(text) # 根据文本选择下拉列表
    8. element.set_attr(attr, value) # 设置元素属性值
    9. element.remove_attr(attr) # 删除属性
    10. element.drag(x, y, speed, shake) # 拖动元素相对距离,可设置速度和是否随机抖动
    11. element.drag_to(ele_or_loc, speed, shake) # 拖动元素到另一个元素或某个坐标,可设置速度和是否随机抖动
    12. element.hover() # 在元素上悬停鼠标+
  • 元素属性

    1. element.html # 返回元素 outerHTML
    2. element.inner_html # 返回元素 innerHTML
    3. element.tag # 返回元素 tag name
    4. element.text # 返回元素 innerText 值
    5. element.comments # 返回元素内注释列表
    6. element.link # 返回元素 href 或 src 绝对 url
    7. element.texts() # 返回元素内所有直接子节点的文本,包括元素和文本节点,可指定只返回文本节点
    8. element.attrs # 返回元素所有属性的字典
    9. element.attr(attr) # 返回元素指定属性的值
    10. element.css_path # 返回元素绝对 css 路径
    11. element.xpath # 返回元素绝对 xpath 路径
    12. element.parent # 返回元素父元素
    13. element.next # 返回元素后一个兄弟元素
    14. element.prev # 返回元素前一个兄弟元素
    15. element.parents(num) # 返回第 num 级父元素
    16. element.nexts(num, mode) # 返回后面第几个元素或节点
    17. element.prevs(num, mode) # 返回前面第几个元素或节点
    18. element.ele(loc_or_str, timeout) # 返回当前元素下级第一个符合条件的子元素、属性或节点文本
    19. element.eles(loc_or_str, timeout) # 返回当前元素下级所有符合条件的子元素、属性或节点文本

  • 浏览器和数据包模式切换

    1. from DrissionPage import WebPage
    2. # 创建页面对象
    3. page = WebPage()
    4. # 访问网址
    5. page.get('https://www.baidu.com')
    6. # 查找文本框元素并输入关键词
    7. page('#kw').input('DrissionPage')
    8. # 点击搜索按钮
    9. page('#su').click(wait_loading=True)
    10. # 切换到收发数据包模式
    11. page.change_mode()
    12. # 获取所有<h3>元素
    13. links = page.eles('tag:h3')
    14. # 遍历获取到的元素
    15. for link in links:
    16.   # 打印元素文本
    17.   print(link.text)

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/556580
推荐阅读
相关标签
  

闽ICP备14008679号