当前位置:   article > 正文

关于爬虫解析数据的4种方式_爬虫解析有xpath和

爬虫解析有xpath和

目录

一、XPath解析数据

1、XPath解析数据

2、XML的树形结构

3、使用XPath选取节点

4、XPath案例 

二、BeautifulSoup解析数据

1、BeautifulSoup

2、BeautifulSoup的使用

3、BeautifulSoup案例

三、正则表达式

1、正则表达式

2、正则语法

3、特殊序列

4、正则处理函数

5、正则案例1

6、正则案例2

四、pyquery解析数据

1、pyquery

2、pyquery的初始化方式

3、pyquery的使用

4、pyquery案例


一、XPath解析数据

1、XPath解析数据

  • XPath
    • 全称:XML Path Language是一种小型的查询语言
    • 是一门在XML文档中查找信息的语言
  • XPath的优点
    • 可在XML中查找信息
    • 支持HTML的查找
    • 可通过元素和属性进行导航
  • XPath需要依赖lxml库
    • 安装方式: pip install lxml

2、XML的树形结构

3、使用XPath选取节点

序号

表达式

描述

1

nodename

选取此节点的所有子节点

2

/

从根节点选择

3

//

从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置

4

.

选取当前节点

5

..

选取当前节点的父节点

6

/text()

选取当前路径下的文本内容

7

/@xxx

提取当前路径下标签的属性值

8

|可选符

可选择若干个路径//p|//div,在当前路径下选取所有符合条件的p标签和div标签

序号

表达式

描述

1

xpath('./body/div[1]')

选取body下的第一个div节点

2

xpath('./body/div[ last() ]')

选取body下最后一个div节点

3

xpath('./body/div[ last()-1 ]')

选取body下倒数第二个div节点

4

xpath('./body/div[ position()<3 ]')

选取body下前两个div节点

5

xpath('./body/div[ @class ]')

选取body下带有class属性的div节点

6

xpath('./body/div[ @class="main" ]')

选取body下class属性为main的div节点

7

xpath('./body/div[ price>35.00 ]')

选取body下price元素大于35的div节点

4、XPath案例 

  • 下载谷歌浏览器XPath插件
  • 安装XPath插件
  • 使用XPath
  1. import requests
  2. from lxml import etree
  3. url='https://www.qidian.com/rank/yuepiao'
  4. headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}
  5. # 发送请求
  6. resp=requests.get(url,headers)
  7. e=etree.HTML(resp.text) # 类型转换,把str类型转换成class 'lxml.etree._Element'
  8. # print(type(e)) # <class 'lxml.etree._Element'>
  9. names=e.xpath('//div[@class="book-mid-info"]/h4/a/text()') # 获取小说名称
  10. authors=e.xpath('//p[@class="author"]/a[1]/text()') # 获取小说作者
  11. # print(names) # ['大奉打更人', '这个人仙太过正经', '从红月开始', '稳住别浪', 。。。]
  12. # print(authors) # ['卖报小郎君', '言归正传', '黑山老鬼', '跳舞', '我最白', 。。。]
  13. for name,author in zip(names,authors):
  14. print(name, ":", author)
  15. # 大奉打更人 : 卖报小郎君
  16. # 这个人仙太过正经 : 言归正传
  17. # 从红月开始 : 黑山老鬼
  18. # 稳住别浪 : 跳舞
  19. # ... ...

二、BeautifulSoup解析数据

1、BeautifulSoup

  • BeautifulSoup
    • 是一个可以从HTML或XML文件中提取数据的Python库。其功能简单而强大、容错能力强、文档相对完善,清晰易懂
    • 非Python标准模块,需要安装才能使用
  • 安装方式
    • pip install bs4
  • 测试方式
    • import bs4
  • 解析器
    • BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果不安装第三方解析器,则Python会使用默认浏览器

序号

解析器

使用方法

优点

缺点

1

标准库

BeautifulSoup(html,'html.parser')

内置标准库,速度适中,文档容错能力强

Python3.2版本前的文档容错能力差

2

lxml HTML

BeautifulSoup(html, 'lxml')

速度快,文档容错能力强

安装C语言库

3

lxml XML

BeautifulSoup(html, 'xml')

速度快,唯一支持XML

安装C语言库

4

html5lib

BeautifulSoup(html, 'html5lib')

容错能力最强,可生成HTML5

运行慢,扩展差

  1. from bs4 import BeautifulSoup
  2. html='''
  3. <html>
  4. <head>
  5. <title>今天又是美好的一天</title>
  6. </head>
  7. <body>
  8. <h1 class="info bg" float="left">早起对自己说:我真美!</h1>
  9. <a href="http://www.baidu.com">百度</a>
  10. <h2><!--注释的内容--></h2>
  11. </body>
  12. </html>
  13. '''
  14. # bs=BeautifulSoup(html, 'html.parser')
  15. bs=BeautifulSoup(html, 'lxml')
  16. print(bs.title) # 获取标题 <title>今天又是美好的一天</title>
  17. print(bs.h1.attrs) # 获取h1标签的所有属性 {'class': ['info', 'bg'], 'float': 'left'}
  18. # 获取单个属性
  19. print(bs.h1.get('class')) # ['info', 'bg']
  20. print(bs.h1['class']) # ['info', 'bg']
  21. print(bs.a['href']) # http://www.baidu.com
  22. # 获取文本内容
  23. print(bs.title.text) # 今天又是美好的一天
  24. print(bs.title.string) # 今天又是美好的一天
  25. # 获取内容
  26. print('-----', bs.h2.string) # ----- 注释的内容
  27. print('-----', bs.h2.text) # -----
  28. # string可以获取注释的内容,但是text不能获取注释内容

2、BeautifulSoup的使用

  • BeautifulSoup提取数据的常用方法

返回值类型

方法

功能

语法

举例

Tag

find()

提取满足要求的首个数据

bs.find(标签,属性)

bs.find('div', class_='books')

Tag

find_all()

提取满足要求的所有数据

bs.find_all(标签,属性)

bs.find_all('div', class_='books')

  • CSS选择题

功能

举例

通过ID查找

bs.select('#abc')

通过classa查找

bs.select('.abc')

通过属性查找

bs.select(a[' class="abc" '])

  • Tag对象

功能

举例

获取标签

bs.title

获取所有属性

bs.title.attrs

获取单个属性的值

bs.div.get('class')

bs.div['class']

bs.a['href']

  1. from bs4 import BeautifulSoup
  2. html='''
  3. <title>今天又是美好的一天</title>
  4. <div class="info" float="left">今天又是美好的一天</div>
  5. <div class="info" float="right" id="gb">
  6. <span>好好学习,天天向上</span>
  7. <a href="http://www.baidu.com">百度</a>
  8. </div>
  9. <span>人生苦短,唯有爱情</span>
  10. '''
  11. bs=BeautifulSoup(html, 'lxml')
  12. print(bs.title, type(bs.title)) # 获取标题及其类型
  13. # <title>今天又是美好的一天</title> <class 'bs4.element.Tag'>
  14. print(bs.find('div',class_='info'), type(bs.find('div',class_='info'))) # 获取第一个满足条件的标签
  15. # <div class="info" float="left">今天又是美好的一天</div> <class 'bs4.element.Tag'>
  16. print(bs.find_all('div', class_='info')) # 得到的是一个标签的列表
  17. # [<div class="info" float="left">今天又是美好的一天</div>, <div class="info" float="right" id="gb">
  18. # <span>好好学习,天天向上</span>
  19. # <a href="http://www.baidu.com">百度</a>
  20. # </div>]
  21. for item in bs.find_all('div',class_='info'):
  22. print(item, type(item))
  23. print(bs.find_all('div', attrs={'float':'right'})) # 得到属性为'float':'right'的div标签
  24. print('---------------CSS选择器---------------------')
  25. print(bs.select("#gb"))
  26. print(bs.select(".info"))
  27. print(bs.select('div>span')) # [<span>好好学习,天天向上</span>]
  28. print(bs.select('div.info>span')) # [<span>好好学习,天天向上</span>]
  29. for item in bs.select('div.info>span'):
  30. print(item.text) # 好好学习,天天向上

3、BeautifulSoup案例

  1. import requests
  2. from bs4 import BeautifulSoup
  3. url='https://www.taobao.com/'
  4. headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}
  5. resp=requests.get(url,headers)
  6. # print(resp.text) # <html>... ...</html>
  7. bs=BeautifulSoup(resp.text,'lxml')
  8. a_list=bs.find_all('a')
  9. # print(len(a_list)) # 128
  10. for a in a_list:
  11. url=a.get('href')
  12. # print(url)
  13. if url==None:
  14. continue
  15. if url.startswith('http') or url.startswith('https'):
  16. print(url)

三、正则表达式

1、正则表达式

  • 是一个特殊的字符序列,它能帮助用户便捷地检查一个字符串是否与某种模式匹配
  • Python的正则模块是re,是Python的内置模块,不需要安装,导入即可

2、正则语法

序号

元字符

说明

1

.

匹配任意字符(不包括\n)

2

^

匹配字符串的开头

3

$

匹配字符的末尾

4

*

匹配前一个元字符0到多次

5

+

匹配前一个元字符1到多次

6

?

匹配前一个元字符0到1次

7

{m}

匹配前一个字符m次

8

{m,n}

匹配前一个字符m到n次

9

{m,n}?

匹配前一个字符m到n次,并且取尽可能少的情况

10

\\

对特殊字符进行转义

11

[]

一个字符的集合,可匹配其中任意一个字符

12

|

逻辑表达式“或”,比如 a|b 代表可匹配a或者b

13

(...)

被括起来的表达式作为一个元组。findall()在有组的情况下只显示组的内容

3、特殊序列

序号

元字符

说明

1

\A

只在字符串开头进行匹配

2

\b

匹配位于开头或者结尾的空字符串

3

\B

匹配不位于开头或者结尾的空字符串

4

\d

匹配任意十进制数,相当于[0-9]

5

\D

匹配任意非数字字符,相当于[^0-9]

6

\s

匹配任意空白字符,相当于[\t\n\r\f\v]

7

\S

匹配任意非空白字符,相当于[^\t\n\r\f\v]

8

\w

匹配任意数字、字母、下划线,相当于[a-zA-Z0-9_]

9

\W

匹配任意非数字、字母、下划线,相当于[^a-zA-Z0-9_]

10

\Z

只在字符串结尾进行匹配

11

[\u4e00-\u9fa5]

中文

4、正则处理函数

序号

正则处理函数

说明

1

re.match(pattern, string, flags=0)

尝试从字符串的开始位置匹配一个模式,如果匹配成功,就返回一个匹配成功的对象,否则返回None

2

re.search(pattern, string, flags=0)

扫描整个字符串并返回第一次成功匹配的对象,如果匹配失败,就返回None

3

re.findall(pattern, string, flags=0)

获取字符串中所有匹配的字符串,并以列表的形式返回

4

re.sub(pattern, repl, string, count=0,flags=0)

用于替换字符串中的匹配项,如果没有匹配的项则返回没有匹配的字符串

5

re.compile(pattern[ ,flags ])

用于编译正则表达式,生成一个正则表达式(Pattern)对象,供match()和search()函数使用

  1. import re
  2. s = 'I study Python3.8 every day'
  3. print('--------match方法,从起始位置开始匹配--------')
  4. print(re.match("I", s).group()) # I
  5. print(re.match('\w', s).group()) # I
  6. print(re.match('.', s).group()) # I
  7. print('--------search方法,从任意位置开始匹配,匹配第一个--------')
  8. print(re.search('study', s).group()) # study
  9. print(re.search('s\w', s).group()) # st
  10. print('--------findall方法,从任意位置开始匹配,匹配多个--------')
  11. print(re.findall("y", s)) # 结果为数组 ['y', 'y', 'y', 'y']
  12. print(re.findall("Python", s)) # ['Python']
  13. print(re.findall("P\w+.\d", s)) # ['Python3.8']
  14. print(re.findall("P.+\d", s)) # ['Python3.8']
  15. print('--------sub方法的使用,替换功能--------')
  16. print(re.sub('study', 'like', s)) # 将study替换成like I like Python3.8 every day
  17. print(re.sub('s\w+', 'like', s)) # I like Python3.8 every day

5、正则案例1

爬取数据时,一定要记得先找F12代码,看看和爬取的数据是否一致,若一致,则可直接提取。

  1. import re
  2. import requests
  3. url='http://www.qiushibaike.com/video/'
  4. headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}
  5. resp=requests.get(url,headers=headers)
  6. # print(resp.text)
  7. # 先随便找一个视频,看是否能提取到。单引号中的单引号用\转义:\'...\'
  8. # info=re.findall('<source src="//qiubai-video.qiushibaike.com/1EXAHVPHKWXFJYR2_org.mp4" type=\'video/mp4\' />', resp.text)
  9. # print(info) # ['<source src="//qiubai-video.qiushibaike.com/1EXAHVPHKWXFJYR2_org.mp4" type=\'video/mp4\' />']
  10. info=re.findall('<source src="(.*)" type=\'video/mp4\' />', resp.text)
  11. # print(info) # 给出所有URL的相对位置的数组
  12. lst=[]
  13. for item in info:
  14. lst.append("https:"+item)
  15. # print(lst)
  16. # 循环
  17. count=0
  18. for item in lst:
  19. count+=1
  20. resp=requests.get(item, headers=headers)
  21. # 转成二进制存储
  22. with open('video/'+str(count)+'.mp4', 'wb') as file:
  23. file.write(resp.content)
  24. print('视频下载完毕')

6、正则案例2

  1. import requests
  2. import re
  3. from pandas import DataFrame
  4. # 网址
  5. url = "https://search.51job.com/list/000000,000000,0000,32,9,99,Java%25E5%25BC%2580%25E5%258F%2591,2,1.html"
  6. # 获得网页对象
  7. res = requests.get(url)
  8. # 设置编码格式
  9. res.encoding = "gbk"
  10. # 职位名
  11. # 将要提取的用(.*)表示,每条数据不同的地方用.*表示
  12. position_pat = '<a target="_blank" title="(.*)" href=".*" onmousedown=".*">'
  13. position = re.findall(position_pat, res.text)
  14. # 公司名
  15. company_pat = '<span class="t2"><a target="_blank" title="(.*)" href=".*">.*</a></span>'
  16. company = re.findall(company_pat, res.text)
  17. # 工作地点
  18. place_pat = '<div class="el">.*?<span class="t3">(.*?)</span>' # 非贪婪模式
  19. place = re.findall(place_pat, res.text, re.S)
  20. # 薪资
  21. salary_pat = '<div class="el">.*?<span class="t4">(.*?)</span>' # 非贪婪模式
  22. salary = re.findall(salary_pat, res.text, re.S)
  23. # 将取出的信息放到数据框
  24. jobInfo = DataFrame([position, company, place, salary]).T
  25. # 设置列名
  26. jobInfo.columns = ['职位名', '公司名', '工作地点', '薪资']
  27. print(jobInfo.head())
  28. # 将数据保存到本地
  29. jobInfo.to_csv('51job2.csv')

四、pyquery解析数据

1、pyquery

  • pyquery库是jQuery的Python实现,就能以jQuery的语法来操作解析HTML文档,易用性和解析速度都很好
  • 前提条件:
    • 你对CSS选择器与jQuery有所了解
  • 非Python标准模块,需要安装
    • 安装方式
      • pip install pyquery
    • 测试方式
      • import pyquery

2、pyquery的初始化方式

  • 字符串方式

  • url方式

  • 文件

  1. # 字符串方式
  2. from pyquery import PyQuery as py
  3. html='''
  4. <html>
  5. <head>
  6. <title>PyQuery</title>
  7. </head>
  8. <body>
  9. <h1>PyQuery</h1>
  10. </body>
  11. </html>
  12. '''
  13. doc=py(html) # 创建PyQuery的对象,实际上就是在进行一个类型转换,将str类型转成PyQuery类型
  14. print(doc) # 和html一样的内容
  15. print(type(doc)) # <class 'pyquery.pyquery.PyQuery'>
  16. print(type(html)) # <class 'str'>
  17. print(doc('title')) # <title>PyQuery</title>
  1. # url方式
  2. from pyquery import PyQuery
  3. doc=PyQuery(url='http://www.baidu.com', encoding='utf-8')
  4. print(doc) # 获取html
  5. print(doc('title')) # <title>百度一下,你就知道</title>
  1. # 文件
  2. from pyquery import PyQuery
  3. doc=PyQuery(filename='a1.html')
  4. print(doc) # 获取html
  5. print(doc('h1')) # <h1>PyQuery</h1>

3、pyquery的使用

序号

提取数据

举例

1

获取当前节点

doc('#main')

2

获取子节点

doc('#main').children()

3

获取父节点

doc('#main').parent()

4

获取兄弟节点

doc('#main').siblings()

5

获取属性

doc('#main').attr('href')

6

获取内容

doc('#main').html() doc('#main').text()

  1. from pyquery import PyQuery
  2. html='''
  3. <html>
  4. <head>
  5. <title>PyQuery</title>
  6. </head>
  7. <body>
  8. <div id="main">
  9. <a href="http://www.baidu.com">百度</a>
  10. <h1>百度一下</h1>
  11. </div>
  12. <h2>Python学习</h2>
  13. </body>
  14. </html>
  15. '''
  16. doc=PyQuery(html)
  17. # 获取当前节点
  18. print(doc("#main")) # 获取整个div
  19. # 获取父节点
  20. print(doc("#main").parent()) # 获取整个body
  21. # 获取子节点
  22. print(doc("#main").children()) # 获取<a>和<h1>
  23. # # 获取兄弟节点
  24. print(doc("#main").siblings()) # 获取<h2>
  25. print('----------获取属性------------')
  26. print(doc('a').attr('href')) # http://www.baidu.com
  27. print('----------获取标签的内容------------')
  28. print(doc("#main").html()) # 获取<a>和<h1>,div中的所有都获取到了
  29. print(doc("#main").text()) # 百度 百度一下, 只获取了div中的文本

4、pyquery案例

  1. import requests
  2. from pyquery import PyQuery
  3. url='https://www.qidian.com/rank/yuepiao'
  4. headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}
  5. resp=requests.get(url,headers)
  6. # print(resp.text)
  7. # 初始化PyQuery对象
  8. doc=PyQuery(resp.text) # 使用字符串初始化方式初始化PyQuery对象
  9. # a_tag=doc('h4 a') # 获取h4的a标签
  10. # print(a_tag)
  11. names=[a.text for a in doc('h4 a')]
  12. # print(names) # ['大奉打更人', '这个人仙太过正经', '从红月开始', '稳住别浪',....]
  13. authors = doc('p.author a') # 找<p class="author">下的<a>标签
  14. # print(authors)
  15. authors_lst=[]
  16. for index in range(len(authors)):
  17. if index%2==0:
  18. authors_lst.append(authors[index].text)
  19. # print(authors_lst) # ['卖报小郎君', '言归正传', '黑山老鬼', '跳舞', '我最白', '白驹易逝', ...]
  20. for name,author in zip(names,authors_lst):
  21. print(name, ':', author)
  22. # 大奉打更人 : 卖报小郎君
  23. # 这个人仙太过正经 : 言归正传
  24. # 从红月开始 : 黑山老鬼
  25. # 稳住别浪 : 跳舞
  26. # ... ...

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/109102
推荐阅读
相关标签
  

闽ICP备14008679号