Python爬虫中的xpath的简单用法（小例子）_爬虫中简单的xpath路径

作者：神奇cpp | 2024-07-17 05:55:41

踩

爬虫中简单的xpath路径

Python爬虫中的xpath的简单用法（小例子）

简介

首先，XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。
这次使用在Python爬虫领域。
如何得到
首先用pip安装lxml,以及requests：
pip install lxml
pip install requests
其次，在想要浏览的网页中，用F12查找元素（刷新），右击查找想要的某一区域并复制它的xpath
使用例子

import requests
from lxml import etree
import lxml
url="http://landing.zhaopin.com/register?utm_source=baidupcpz&utm_medium=cpt&utm_provider=partner&sid=121113803&site=null"

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36"} #添加浏览器头
#你需要爬取的网页
html=requests.get(url,headers=headers)
html.encoding="utf-8"
#print(html.text)
html=etree.HTML(html.content, parser=etree.HTMLParser(encoding='utf-8'))               #etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
#print(etree.tostring(html, encoding="utf-8").decode("utf-8"))
#将你的xpath复制到三引号里面，因为xpath里可能有双引号，所以我们加上三引号比较靠谱
s=html.xpath('''//*[@id="root"]/div[1]/div[1]/div/div/span[1]/span/text()''')
print (s)		#一定要注意此种情况是未登录，即不需要cookies的情况，如果需要登陆则另说。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

['一份简历，涨薪36%']
1

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/838338