当前位置:   article > 正文

案例:xpath实例+功能

案例:xpath实例+功能

素材:test.html 代码如下:

  1. <!DOCTYPE html>
  2. <html lang="en">
  3. <head>
  4. <meta charset="UTF-8" />
  5. <title>Title</title>
  6. </head>
  7. <body>
  8. <span>我爱你</span>
  9. <ul>
  10. <li><a href="http://www.baidu.com">百度</a></li>
  11. <li><a href="http://www.google.com">谷歌</a></li>
  12. <li><a href="http://www.sogou.com">搜狗</a></li>
  13. </ul>
  14. <ol>
  15. <li><a href="feiji">飞机</a></li>
  16. <li><a href="dapao">大炮</a></li>
  17. <li><a href="huoche">火车</a></li>
  18. </ol>
  19. <div class="job">李嘉诚</div>
  20. <div class="common">胡辣汤</div>
  21. </body>
  22. </html>

爬虫代码:常用

  1. from lxml import etree
  2. # from lxml import html
  3. # etree = html.etree
  4. # # 需要加载准备解析的数据
  5. f= open('test.html',mode='r',encoding='utf-8')
  6. pageSource=f.read()
  7. # print(pageSource)
  8. # 加载数据,返回element对象
  9. et=etree.HTML(pageSource)
  10. # print(et)
  11. # xpath语法
  12. # result = et.xpath('/html') #/html表示根节点
  13. # result = et.xpath('/html/body') #表达式中的/表示一层html节点
  14. # result = et.xpath('/html/body/span/text()') #text()表示提取标签中的文本信息
  15. # result = et.xpath('/html/body/*/li/a/text()') # * 表示任意的,通配符,
  16. # result = et.xpath('/html/body/*/li/a/@href') # @ 表示属性
  17. # result = et.xpath('//li/a/@href') # // 表示任意位置
  18. # result = et.xpath('//div[@class="job"]/text()') # [@xx='xx'] 表示属性上的限定
  19. # print(result)
  20. # 带循环的
  21. result = et.xpath("/html/body/ul/li")
  22. for item in result:
  23. href = item.xpath("./a/@href")[0] # ./ 表示当前这个元素
  24. text = item.xpath("./a/text()")[0]
  25. print(text,href)

运行结果如下:

百度 http://www.baidu.com
谷歌 http://www.google.com
搜狗 http://www.sogou.com

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/838363
推荐阅读
相关标签
  

闽ICP备14008679号