当前位置:   article > 正文

盘点Python中4种读取json文件和提取json文件内容的方法_python解析json文件并提取

python解析json文件并提取

前言

前几天有粉丝在私信里问了一个json文件处理的问题。

图片

看上去他只需要follower和ddate这两个字段下的对应的值。

我们知道json是一种常见的数据传输形式,所以对于爬取数据的数据解析,json的相关操作是比较重要的,能够加快我们的数据提取效率。

思路

关于这个问题,倒不是很难,三个方法,第一个是pd处理或者正则表达式,第二个是json处理,第三个是jsonpath,总之方法很多,这里给出4个处理方法,希望下次粉丝们再遇到类似问题的时候,有章可循。

实现过程

1、正则表达式

这个方法可以看看,通过匹配的方法进行提取,代码如下所示:

  1. import re
  2. import json
  3. file = open('漫画.txt''r', encoding='utf-8')
  4. content = file.readline()
  5. ddate_result1 = re.findall('"ddate":"(\d+\-\d+\-\d+)"'content)
  6. ddate_result2 = re.findall('"ddate":"(.*?)"'content)
  7. follower_result1 = re.findall('"follower":(\d+),"'content)
  8. print(ddate_result1)
  9. print(ddate_result2)
  10. print(follower_result1)

运行之后,可以得到结果:

图片

关于ddate,follower获取的方法肯定还有很多其他写法,这里只是抛砖引玉,欢迎大家多多尝试。

2、jsonpath方法一

  1. from jsonpath import jsonpath
  2. import json
  3. """follower和ddate"""
  4. with open("漫画.txt", encoding="utf-8"as file:
  5.     file_json = json.loads(file.readline())
  6. follower = jsonpath(file_json, "$..follower")
  7. ddate = jsonpath(file_json, "$..ddate")
  8. print(follower)
  9. print(ddate)

代码运行之后,就会得到想要的数据,如下图所示:

图片

这个..就和xpath里面的//一样,子孙节点,$是根节点。

3、jsonpath方法二

这个是另外一个用法了

  1. import json
  2. import jsonpath
  3. # obj = json.load(open('罗翔.json''r', encoding='utf-8'))  # 注意,这里是文件的形式,不能直接放一个文件名的字符串
  4. file = open('漫画.txt''r', encoding='utf-8')  # 注意,这里是文件的形式,不能直接放一个文件名的字符串
  5. obj = json.loads(file.readline())
  6. follower = jsonpath.jsonpath(obj, '$..follower')  # 文件对象   jsonpath语法
  7. ddate = jsonpath.jsonpath(obj, '$..ddate')  # 文件对象   jsonpath语法
  8. print(follower)
  9. print(ddate)

代码运行之后,也可以得到预期的结果。

图片

当然了,如果你的文件本来就是json文件,也可以直接读取,代码类似:

  1. import json
  2. import jsonpath
  3. obj = json.load(open('罗翔.json''r', encoding='utf-8'))  # 注意,这里是文件的形式,不能直接放一个文件名的字符串
  4. file = open('罗翔.json''r', encoding='utf-8')  # 注意,这里是文件的形式,不能直接放一个文件名的字符串
  5. # obj = json.loads(file.readline())
  6. follower = jsonpath.jsonpath(obj, '$..follower')  # 文件对象   jsonpath语法
  7. ddate = jsonpath.jsonpath(obj, '$..ddate')  # 文件对象   jsonpath语法
  8. print(follower)
  9. print(ddate)

运行之后,也可以得到预期的结果:

图片

4、jsonpath方法三

  1. import json
  2. import jsonpath
  3. with open("罗翔.txt"'r', encoding="UTF-8"as fr:
  4.     file_json = eval(fr.read().replace('\n\u200b'''))  # 读取的str转为字典
  5. follower = jsonpath.jsonpath(file_json, '$..follower')  # 文件对象   jsonpath语法
  6. ddate = jsonpath.jsonpath(file_json, '$..ddate')  # 文件对象   jsonpath语法
  7. print(follower)
  8. print(ddate)

方法大同小异,运行之后,也可以拿到预取的目标数据,如下图所示。

图片

图片

关于Python技术储备 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/677728

推荐阅读
相关标签