赞
踩
嗨,小鱼来了~
在学习爬虫的时候,大家肯定碰到过返回的结果是json字符串格式的数据。对于这种数据我们通常使用的是json模块,将json字符串,转化为字典格式的数据,然后采用 “键值对” 方式,获取我们想要的数据。
但是存在一个问题:
我们爬取到的数据多为json数据,转化为字典后,嵌套太多。看起来密密麻麻,一团糟,毫无规律可言。
今天就告诉大家解决这个问题的宝藏Python库——pprint,这可算是一个超实用的爬虫技巧,大家赶紧拿出小本本,记录下来。
下面我们以腾讯新闻为爬取对象,看看最终得到的数据是个什么样子。
- import requests
- import json
-
- china_url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
- headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
-
- response = requests.get(url = china_url,headers = headers).json()
- data = json.loads(response["data"])
- print(type(data))
- print(data)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。