当前位置:   article > 正文

python lxml用法

python lxml

lxml是Python中一个非常流行的XML解析库。它提供了便捷的XML/HTML scraping及操作功能。主要的功能有:- 解析XML/HTML
- XPath和CSS选择器
- 在文档中导航和搜索
- 修改或创建XML/HTML
- 处理良好标记的(well-formed)以及不良好标记的(non well-formed) XML
- 支持XML Schema, RelaxNG, Schematron, DTD等安装:

pip install lxml

示例用法:解析HTML:

  1. python
  2. from lxml import html
  3. # 加载HTML文档
  4. doc = html.fromstring("""<p>Hello<br>World!</p>""")
  5. # 获取所有p标签
  6. ps = doc.findall("p")
  7. # 获取第一个p标签内容
  8. p = ps[0]
  9. p.text
  10. # 'Hello\nWorld!'

XPath选择器:

  1. python
  2. # 获取所有a标签
  3. links = doc.xpath("//a")
  4. # 获取href属性
  5. hrefs = [link.get("href") for link in links]
  6. # 获取id为"main"的div内容
  7. div = doc.xpath("//div[@id='main']")

修改XML:

  1. python
  2. from lxml import etree
  3. # 加载XML
  4. xml = etree.fromstring("""<book><title>Harry Potter</title></book>""")
  5. # 修改title内容
  6. xml.find("title").text = "Lord of the Rings"
  7. # 打印修改后的XML
  8. print(etree.tostring(xml, pretty_print=True).decode())
  9. '''
  10. <book>
  11. <title>Lord of the Rings</title>
  12. </book>
  13. '''

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/591638
推荐阅读
相关标签
  

闽ICP备14008679号