当前位置:   article > 正文

利用python爬取京东平台评论及图片并进行分析_京东平台的反爬机制

京东平台的反爬机制

一、背景及目的

在淘宝、京东等网络平台上购物,逐渐成为大众化的购物方式。但假冒伪劣产品在这个摸不着实物的购物平台严重危害着消费者的购物体验,即使我们可以通过七天无理由退货退款来维护我们的合法权益,但是这样浪费大量的人力和财力。

我们希望能够一次性通过网络购买到心怡的商品,其实我们可以在购买商品之前在对应商品店铺下查看以往买家的购物体验和商品评价,通过商品评价判断该商品是否值得购买。

但是事实并非如此,网络购物平台的一些商家为了吸引顾客购买商品,往往会通过刷假评论诱骗买家,同时也有一大批被‘好评返现’吸引的消费者注入大量注水评论。

虽然往往买家都能够筛选出大部分这样的评论,但人工筛查繁琐、复杂。其实一个好的筛选评论、重构评论的程序能够为消费者提供更真实的商品信息。

二、设计分析

通过搜集资料分析得知淘宝平台相对于京东平台,其反爬性更强。因此,本次设计从京东平台爬取评论、评论晒图进行分析重构制作云图。

用户输入京东商品链接,程序分析提取出链中的id号,通过链接拼接生成该商品评论的url,从评论中提取出lastpage(评论最后一页),将0到lastpage页分成两部分分给两个线程进行爬取,爬取获得商品评论和商品晒图。

对爬取得到的评论进行筛选,即:

 1、对每条评论进行逐字统计,若该评论中某字符反复不正常出现(多于该评论总数的30%)即判定为注水评论;

  1. 如评论:“这个衣服特别好看。。。。。。。。”,用户通过多次输入符号‘。’完成商家下达的某种好评返现任务或平台的评价任务,导致字符‘。’反复出现率高达30%;(由于某字符数量过多,分母过大导致比例大于30%)
  2. 如评论:“好看”,用户仅输入两个字符(字符数少于4)作为评论,其参考价值不大,导致其字符‘好’和字符‘看’字反复出现率高达30%;(总字符数量过少,分子过小导致比例大于30%)

2、对于第一次筛选保留下的评论进行第二次筛选。给定出部分常见词作为好评关键字,统计每条评论的好评次数,若一条评论中好评次数高于5次判定为好评过多; 

自定义的好评关键字:GoodComment={'推荐','好用','满意','舒服','喜欢','买它','优惠','很值','赞','精美','回购','漂亮','好看','不错','新款','实惠','速度快','效果好','很舒适','很柔软','很合身','真在用','好','继续买','非常好','很好','质量不错','挺好的','继续购买','特别好','蛮好','一直非常满意','特别好看'}

对绝对好评记两次好评数量,如好评关键字{'满意','非常满意'}在评论‘非常满意’中出现两次,而在评论‘比较满意’中只出现一次,即对绝对好评给予一定的筛选。

3、若单条评论总数少于30字,要求有效评论的好评数不得高于评论总字符数的20%;若单条评论总数大于30字,要求有效评论的好评数不得高于评论总字符数的10%且其单个字符重复出现率不得高于20%;

  1. 如评论:“衣服好看,非常满意,还很舒服,买它”,出现好评次数高达5次,而其字符总数为17,判定为刷假评。(由于好评次数过多,分母过大导致比例大于20%)
  2. 如评论:“好看”,评论总字符为2,好评次数为1,判定为假评论,用户为完成商家下达的某种好评返现任务或平台的评价任务,任务式的评论。(总字符数量过少,分子过小导致比例大于20%)
  1. # -*- coding:utf-8 -*-
  2. import requests
  3. import urllib
  4. import time
  5. import threading
  6. import json
  7. import pandas
  8. import os
  9. import re
  10. import jieba
  11. import wordcloud
  12. from PIL import Image
  13. class myThread (threading.Thread):
  14. def __init__(self, threadID, name, counter):
  15. threading.Thread.__init__(self)
  16. self.threadID = threadID
  17. self.name = name
  18. self.counter = counter
  19. def run(self):
  20. print ("开始线程:" )
  21. get_information()
  22. print ("退出线程:" )
  23. #找出字符串str中最多的字
  24. def max_letter_count(str):
  25. count_max=0
  26. for i in str:
  27. if str.count(i)>count_max:
  28. max_char=i
  29. count_max = str.count(i)
  30. list=[]
  31. list.append(max_char)
  32. list.append(count_max)
  33. return list
  34. def get_information(id,headers,start_page,end_page,result,reason):
  35. #目前整理的一些好评关键词
  36. GoodComment={'推荐','好用','满意','舒服','喜欢','买它','优惠','很值','赞','精美','回购','漂亮','好看','不错','新款','实惠','速度快','效果好','很舒适','很柔软','很合身','真好','继续买','非常好','很好','质量不错','挺好的','继续购买','特别好','蛮好','一直在用','非常满意','特别好看'}
  37. #输出每一页的评论
  38. for page in range(start_page,end_page):
  39. print("正在爬第"+str(page)+"页",end='')
  40. url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId='+id+'&score=0&sortType=5&page='+str(page)+'&pageSize=10&isShadowSku=0&fold=1'
  41. data=requests.get(url,headers=headers).content.decode('gbk')
  42. data=data[data.find('{'):data.rfind('}')+1]
  43. data=json.loads(data)
  44. #筛选出有用评论
  45. for num in data['comments']:
  46. #爬取商品评论图
  47. print('.',end='')
  48. m=0
  49. path='photo/'+str()+str(num['id'])+'/'
  50. try:
  51. for image_url in num['images']:
  52. if not os.path.exists(path):
  53. os.makedirs(path)
  54. if '.jpg' in image_url['imgUrl']:
  55. urllib.request.urlretrieve('http:'+image_url['imgUrl'],path+str(num['id'])+'-'+str(m)+'.jpg')
  56. else:
  57. urllib.request.urlretrieve('http:'+image_url['imgUrl'],path+str(num['id'])+'-'+str(m)+'.png')
  58. m=m+1
  59. except:
  60. pass
  61. #如果在某一个评论中某个字重复出现率高达30%,判断为买家的垃圾评论,不写入评论中
  62. if max_letter_count(num['content'])[1]/len(num['content'])>0.3: #30%保证了评论字数不得低于4个
  63. reason.append({
  64. "ID":str(num['id']),
  65. "评论时间":num['creationTime'],
  66. "评论内容":num['content'],
  67. "理由":max_letter_count(num['content'])[0]+"重复出现率高达30%"
  68. })
  69. else:
  70. GoodCommentNum=0
  71. for Comment in GoodComment: #如果评论中出现好评关键字,记录加1
  72. if Comment in num['content']:
  73. GoodCommentNum=GoodCommentNum+1
  74. if GoodCommentNum>5: #如果好评数量大于5,判断为虚假评论
  75. reason.append({
  76. "ID":str(num['id']),
  77. "评论时间":num['creationTime'],
  78. "评论内容":num['content'],
  79. "理由":"好评过多"
  80. })
  81. if len(num['content'])<30: #评论字数少于30字
  82. if GoodCommentNum<=10 and GoodCommentNum/len(num['content'])<=2/10: #如果每10字评论有好评关键字小于2,存入评论
  83. result.append({
  84. "ID":str(num['id']),
  85. "评论时间":num['creationTime'],
  86. "评论内容":num['content']
  87. })
  88. else:
  89. reason.append({
  90. "ID":str(num['id']),
  91. "评论时间":num['creationTime'],
  92. "评论内容":num['content'],
  93. "理由":"好评过多"
  94. })
  95. else: #评论字数大于30字
  96. if max_letter_count(num['content'])[1]/len(num['content'])>0.2:
  97. reason.append({
  98. "ID":str(num['id']),
  99. "评论时间":num['creationTime'],
  100. "评论内容":num['content'],
  101. "理由":max_letter_count(num['content'])[0]+"重复出现率高达20%"
  102. })
  103. else:
  104. if GoodCommentNum<=10 and GoodCommentNum/len(num['content'])<1/10: #如果每10字评论有好评关键字小于1,存入评论
  105. result.append({
  106. "ID":str(num['id']),
  107. "评论时间":num['creationTime'],
  108. "评论内容":num['content']
  109. })
  110. else:
  111. reason.append({
  112. "ID":str(num['id']),
  113. "评论时间":num['creationTime'],
  114. "评论内容":num['content'],
  115. "理由":"好评过多"
  116. })
  117. print("\n爬完第"+str(page)+"页")
  118. def cloud_word(comment_word,name): #生成词云
  119. stopwords = [line.strip() for line in open('stop_words.txt', encoding='UTF-8').readlines()] #加载停用词表
  120. comment_word=comment_word.encode('utf-8')
  121. comment_word=jieba.cut(comment_word) #未去掉停用词的分词结果
  122. comment_word_spite = []
  123. for word in comment_word: #去掉停分词
  124. if word not in stopwords:
  125. comment_word_spite.append(word)
  126. comment_word_spite=' '.join(comment_word_spite)
  127. wc=wordcloud.WordCloud( #创建wordcloud对象
  128. r'msyh.ttc',width=500,height=500,
  129. background_color='white',font_step=2,
  130. random_state=False,prefer_horizontal=0.9
  131. )
  132. t=wc.generate(comment_word_spite)
  133. t.to_image().save(name+'.png')
  134. def main():
  135. #浏览器访问伪装
  136. headers={
  137. 'cookie':'your_cookies',
  138. 'referer':'https://item.jd.com/',
  139. 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36 Edg/91.0.864.37',
  140. }
  141. url_input=input("请输入京东商品网址:")
  142. try:
  143. result=[] #筛选过后的评论
  144. reason=[] #统计每个被筛选淘汰的评论的淘汰理由
  145. id=''.join(re.findall(r'com/(.*?)\.html',url_input))
  146. url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId='+str(id)+'&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'
  147. print(url)
  148. data=requests.get(url,headers=headers).content.decode('gbk')
  149. data=data[data.find('{'):data.rfind('}')+1]
  150. data=json.loads(data)
  151. lastpage=data['maxPage']
  152. print('共有'+str(lastpage)+'页评论')
  153. threads=[]
  154. threads.append(threading.Thread(target=get_information,args=(id,headers,0,lastpage//2,result,reason)))
  155. threads.append(threading.Thread(target=get_information,args=(id,headers,lastpage//2,lastpage,result,reason)))
  156. # 开启新线程
  157. for t in threads:
  158. t.start()
  159. # 等待所有线程完成
  160. for t in threads:
  161. t.join()
  162. print ("退出主线程")
  163. except:
  164. print("提取商品网址信息出错,请重新输入京东商品网址:")
  165. main()
  166. # 创建新线程,分2个线程(太少了速度慢,太快了容易被封)
  167. #将筛选后的评论装入文件
  168. print("有效评论已装入NEW评论.xlsx文件")
  169. print("淘汰评论已装入淘汰评论.xlsx文件")
  170. NEW=pandas.DataFrame(result)
  171. NEW.to_excel('NEW评论.xlsx')
  172. Eliminate=pandas.DataFrame(reason)
  173. Eliminate.to_excel('淘汰评论.xlsx')
  174. comment_word=''
  175. for _comment in result:
  176. comment_word+=_comment["评论内容"]
  177. all_word=comment_word
  178. cloud_word(comment_word,'comment_word')
  179. print("comment云图制作完成")
  180. for _comment in reason:
  181. all_word+=_comment["评论内容"]
  182. cloud_word(all_word,'all_word')
  183. print("all_comment云图制作完成")
  184. if __name__=='__main__':
  185. main()

1、第一阶段——从淘宝爬取到京东爬取

对于实验前半阶段,一直投入于淘宝评论爬取,发现往往对淘宝评论进行一次大量数据爬取后的第二次近时间爬取都会出现报错现象。在发现因淘宝反爬造成的错误和研究如何绕过淘宝反爬措施上花费了大量的时间,尝试过多种不同的方法。

通过查找资料偶然发现京东爬取相对于淘宝较简单,最终放弃淘宝评论爬取,转向京东评论爬取。

2、第二阶段——从低速爬取到高速爬取

对于京东平台大量评论的爬取,其速度较慢,爬取时间较长。为了提高爬取速度,采用多线程进行爬取。但是通过测试发现,多线程爬取容易触发京东反爬机制。

京东评论页仅显示最近100页,对此进行反复测试后发现开启双线程可以在提升爬取速度且可在爬取大量数据时不触发平台反爬措施。

 3、第三阶段——筛选有效评论并使其可视化

对京东平台爬取到商品评论进行筛选,将有效评论存入result列表中,将淘汰评论存入reason列表中,并将其可视化输出到excel文档中,同时对商品晒图按照用户ID分类进行存储,将有效评论和淘汰评论制作成词云图输出,进行对比。

4、第四阶段——完善设计 

对设计进行完善,撰写设计报告;

其中文件NEW评论.xlsx和淘汰评论.xlsx为excel文件存储有效评论和淘汰评论,stop_words.txt文件为GitHub中下载的断停词文件,all_word.png和comment_word.png分别为全部评论和有效评论制作成的词云图,photo文件夹为爬取的评论晒图,其中子文件夹的命名为晒图评论买家的id号。

三、测试结果

1、对京东某商品进行爬取测试,其链接为https://item.jd.com/10902370587.html,对其id提取后拼接的商品评论链接为:https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10902370587&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1;

2、将有效评论存入(NEW评论.xlsx)中,对每条评论的ID号、评论时间、评论内容进行记录;淘汰评论存入(淘汰评论.xlsx)中,对每条评论的ID号、评论时间、评论内容以及淘汰理由进行记录;

 

部分有效评论(NEW评论.xlsx)

部分淘汰评论(淘汰评论.xlsx)

 

3、制作云图

 对筛选的评论集合和筛选后的评论集合制成云图

所有评论生成云图(all_word.png)

有效评论生成云图(comment_word.png) 

4、评论晒图放置在文件夹eliminate.py同文件夹/photos/文件夹中

四、自我评价 

  1. 通过学习网络爬虫爬取购物平台的评论信息和图片,对爬取的评论进行筛选分类处理后存入两个excel文件中(NEW评论.xlsx和淘汰评论.xlsx);
  2. 对存入的淘汰评论.xlsx文件进行查看,发现其筛选出的评论确实属于注水评论或虚假评论;
  3. 对爬的取所有评论和筛选评论制作成词云进行对比,发现其通过筛选处理后的词云能更好的反映出商品情况;
  4. 对于好评关键词都是本人在测试实验时总结的一些词语,但其数量远远不够,通过增加好评关键词的数目能够精准的提升评论筛选效果,但由于时间有限没有做到大量好评关键词;
  5. 好评关键词大多为鞋服类商品的好评关键字,为彰显设计程序的功能,本人有特意的爬取鞋子类商品,而在其他商品类(如手机类)的筛选效果就显得不佳,其主要原因还是好评关键字词库不够完善;
  6. 对于筛选机制,本人对其整体的筛选机制还是比较满意,但是也有些许缺陷,本程序设置的好评数与评论字数的比例参数、好评数目参数、单个字符重复比例参数均有待调整,当其达到最优参数时能够更好的保证注水评论和虚假评论被筛选出,而有效评论能够保留;
  7. 本程序的参数是本人通过反复测试运行总结出的一些参数,但其未达到最优,本人绝对可以通过深度学习使参数达到最优,但其实现复杂,学习的数据集也较难获得。

仅供学习交流,原创作品,转载请联系作者,侵权必究 

详情资源可见资源链接

资源下架,程序部分修改和后续问题见评论区!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/359471
推荐阅读
相关标签
  

闽ICP备14008679号