当前位置:   article > 正文

爬取大众点评网页端店铺评论_爬取大众点评评论

爬取大众点评评论

一、爬虫准备

1.1 爬取目标

大众点评网页端爬虫爬取目标是店铺的评论数据,样例如下图所示。
在这里插入图片描述

1.2 网页分析

首先登录,关键词搜索气泡水,随意点击一家店查看所有评价的界面,如下图所示。
在这里插入图片描述
首先查看网页源代码中是否存在评论数据。
在这里插入图片描述
发现存在评论数据,所以这是个静态网页。

接下来右键检查一条评论看看评论存放位置,发现了评论存放所在的div标签,但是评论并不完整出现了字体加密,如下图示。
在这里插入图片描述
所以大众点评网页端爬取的最大难题就是要解决字体加密问题。

二、svg字体加密解决

右键检查一条评论,点击一个svg加密字体,复制在styles中的backgroud-image中的URL。
在这里插入图片描述
粘贴到新页面查看是什么东西,显示情况如下图所示。
在这里插入图片描述
这个svg字典目前主要有两种形式。
一是如下图所示类型。
在这里插入图片描述
拥有三个标签<style>、<defs>、<text>
<style>标签中存放了字体大小,为14px
<defs>标签内容如下:
在这里插入图片描述
发现 id值在递增,每一行 d="M0 (.*?) H600"括号里的值也在递增变化。
<text>标签内容如下:
在这里插入图片描述
<textPath> 标签中 xlink:href = ‘#num’ 为 css 选择器,绑定了 <defs>/<path> 的 id;
<textPath>值为一串汉字字符串。
在这里插入图片描述
上图在在界面中应显示为“大”字。
在这里插入图片描述
在svg的defs标签中的d值为1848为大于1825且最接近1825的值,所以此时id为46。
接下来在text标签下首先定位到46,接下来用svg字体的x除以字体大小(14)为26,发现26正好为大字。
在这里插入图片描述
二 是这种x,y形式如下图所示:
在这里插入图片描述
这种类似,首先找到svg字体y坐标,取大于y且与其最接近的一行,再用相同思路利用x来找到对应的字符即可。

三、获取svg数据

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/368331
推荐阅读
相关标签
  

闽ICP备14008679号