赞
踩
- <!DOCTYPE html>
- <html lang="en">
- <head>
- <meta charset="UTF-8" />
- <title>Title</title>
- </head>
- <body>
- <span>我爱你</span>
- <ul>
- <li><a href="http://www.baidu.com">百度</a></li>
- <li><a href="http://www.google.com">谷歌</a></li>
- <li><a href="http://www.sogou.com">搜狗</a></li>
- </ul>
- <ol>
- <li><a href="feiji">飞机</a></li>
- <li><a href="dapao">大炮</a></li>
- <li><a href="huoche">火车</a></li>
- </ol>
- <div class="job">李嘉诚</div>
- <div class="common">胡辣汤</div>
- </body>
- </html>

- from lxml import etree
- # from lxml import html
- # etree = html.etree
- # # 需要加载准备解析的数据
- f= open('test.html',mode='r',encoding='utf-8')
- pageSource=f.read()
- # print(pageSource)
- # 加载数据,返回element对象
- et=etree.HTML(pageSource)
- # print(et)
- # xpath语法
- # result = et.xpath('/html') #/html表示根节点
- # result = et.xpath('/html/body') #表达式中的/表示一层html节点
- # result = et.xpath('/html/body/span/text()') #text()表示提取标签中的文本信息
- # result = et.xpath('/html/body/*/li/a/text()') # * 表示任意的,通配符,
- # result = et.xpath('/html/body/*/li/a/@href') # @ 表示属性
- # result = et.xpath('//li/a/@href') # // 表示任意位置
- # result = et.xpath('//div[@class="job"]/text()') # [@xx='xx'] 表示属性上的限定
- # print(result)
-
- # 带循环的
- result = et.xpath("/html/body/ul/li")
- for item in result:
- href = item.xpath("./a/@href")[0] # ./ 表示当前这个元素
- text = item.xpath("./a/text()")[0]
- print(text,href)

运行结果如下:
百度 http://www.baidu.com
谷歌 http://www.google.com
搜狗 http://www.sogou.com
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。