当前位置:   article > 正文

Python学习之爬取京东商城评论区_python爬京东商品评论

python爬京东商品评论

京东商城评论区的爬取

‘’’
注意:
1.访问网页时返回的数据时json类型,无法使用etree对HTML进行解析,使用xpath来获取想要的数据
2.在requests库中,提供了响应对象的json方法,用来对json格式的响应体进行反序列化
3.得到了由json转换成的字典后,参照Fech/HXR中Preview的结构,便可利用遍历字典的方式来获取我们想要的数据
‘’’

 import fake_useragent
import requests

#指定url
url = "https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1710897833040&loginType=3&uuid=181111935.17108518443021816314079.1710851844.1710856131.1710897432.3&productId=10096776496389&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1&bbtf=&shield="

#将读取的文件写到./jingdong.txt中
fp = open("./jingdong.txt","w+",encoding="utf-8")

# 设置UA伪装
head = {
    "User-Agent": fake_useragent.UserAgent().random

}

# 发送请求
response = requests.get(url, headers=head)

# 获取响应的数据
#设置response_dict来接收json转化后的字典
response_dict = response.json()
 '''
在requests库中,不用json.loads方法进行反序列化(将json数据转化为字典),
而是提供了响应对象的json方法,用来对json格式的响应体进行反序列化
比如:
 r = requests.get(url)
 r.json()
'''

#验证返回的数据类型为字典
# print(type(response_dict))

#利用遍历字典的方式来获取我们想要的数据
for comment in response_dict['comments']:
    #replace方法,用“ ”来替代换行符
    #爬取所有的评论
    content_list = comment['content'].replace("\n", "")
    #爬取手机颜色
    productColor_list = comment['productColor'].replace("\n", "")
    #爬取手机型号
    productSize_list = comment['productSize'].replace("\n", "")
    #爬取手机名称
    referenceName_list = comment['referenceName'].replace("\n", "")
    # print(content_list+","+productColor_list+","+productSize_list+","+referenceName_list)
    fp.write(content_list+","+productColor_list+","+productSize_list+","+referenceName_list+"\n")


fp.close()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/939777
推荐阅读
相关标签
  

闽ICP备14008679号