当前位置:   article > 正文

实战讲解四种不同的爬虫解析数据方法,必须掌握!_对于网络爬虫而言,经常需要解析的数据类型有

对于网络爬虫而言,经常需要解析的数据类型有

爬虫解析数据有很多种,爬取不同的数据,返回的数据类型不一样,有html、json、xml、文本(字符串)等多种格式!

掌握这四种解析数据的方式,无论什么样的数据格式都可以轻松应对处理。

这四种方式分别是:1.xpath、2.bs4、3.json、4.正则。

下面以实战方式讲解这四种技术如何使用!!!

1、Xpath

1.请求数据

请求链接如下,以小说网站:新笔趣阁,为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaosh

导入相应的库

import requests
from lxml import etree
  • 1
  • 2

开始请求数据

headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

2.解析数据

比如我们要获取下面这些数据(小说名称)

图片
分析网页标签
图片
数据在class=“l”-> ul ->li标签中

selector = etree.HTML(text)
list = selector.xpath('//*[@class="l"]/ul/li')
  • 1
  • 2

解析li中数据
图片
可以看到,数据在li->span->a 标签中

for i in list:
    title = i.xpath('.//span/a/text()')
    href = i.xpath('.//span/a/@href')
    print(title)
    print(href)
    print("--------")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

图片

2、Bs4

1.请求数据

请求链接如下,同样以小说网站:新笔趣阁,为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/
  • 1

导入相应的库

import requests
from bs4 import BeautifulSoup
  • 1
  • 2

开始请求数据

headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

2.解析数据

比如我们要获取下面这些数据(小说名称)

图片
分析网页标签
图片
可以看到,数据在span中(class=“s2”) 标签中

方法一:

list = soup.find_all(attrs={'class':'s2'})
for i in list:
    print(i.a.get_text())
    print(i.a.get("href"))
    print("--------")
print(len(list))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述
方法二:

# 获取所有的链接
all_link = [(link.a['href'], link.a.get_text()) for link in soup.find_all('li')]
for i in all_link:
   print(i)
  • 1
  • 2
  • 3
  • 4

在这里插入图片描述

3、json

1.请求数据

请求链接如下,获取ip定位,为案例进行讲解

https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip=123.123.123.123

导入相应的库

import requests
import json

开始请求数据
ip = "123.123.123.123"
url="https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip="+str(ip)
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

2.解析数据
在这里插入图片描述
比如我们要获取下面这些数据(省份和城市)

text = res.text
print(text)
##text不是json类型的话,则转为json类型
text = json.loads(text)
print("省份="+text['province']+",城市="+text['city'])
  • 1
  • 2
  • 3
  • 4
  • 5

在这里插入图片描述

4、正则表达式

1.请求数据

请求链接如下,以小说网站:新笔趣阁,为案例进行讲解
http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests
import re
  • 1
  • 2

开始请求数据

headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

2.解析数据

比如我们要获取下面这些数据(小说名称)

图片
分析网页html
在这里插入图片描述
可以看到,数据在li->span->a 标签中,a标签前有“《”,后有“》”

pattern = re.compile('《.*?》')
items = re.findall(pattern, text)

for i in items:
    print(i)
  • 1
  • 2
  • 3
  • 4
  • 5

在这里插入图片描述

在这里还是要推荐下我自己建的Python学习群:645415122,群里都是学Python的,如果你想学或者正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2021最新的Python进阶资料和零基础教学,欢迎进阶中和对Python感兴趣的小伙伴加入!

**以下内容无用,为本篇博客被搜索引擎抓取使用
(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)
python 是干什么的 零基础学 python 要多久 python 为什么叫爬虫
python 爬虫菜鸟教程 python 爬虫万能代码 python 爬虫怎么挣钱
python 基础教程 网络爬虫 python python 爬虫经典例子
python 爬虫
(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)( ̄︶ ̄)( ̄︶ ̄)
以上内容无用,为本篇博客被搜索引擎抓取使用

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/109165
推荐阅读
  

闽ICP备14008679号