赞
踩
大众点评网页端爬虫爬取目标是店铺的评论数据,样例如下图所示。
首先登录,关键词搜索气泡水,随意点击一家店查看所有评价的界面,如下图所示。
首先查看网页源代码中是否存在评论数据。
发现存在评论数据,所以这是个静态网页。
接下来右键检查一条评论看看评论存放位置,发现了评论存放所在的div标签,但是评论并不完整出现了字体加密,如下图示。
所以大众点评网页端爬取的最大难题就是要解决字体加密问题。
右键检查一条评论,点击一个svg加密字体,复制在styles中的backgroud-image中的URL。
粘贴到新页面查看是什么东西,显示情况如下图所示。
这个svg字典目前主要有两种形式。
一是如下图所示类型。
拥有三个标签<style>、<defs>、<text>
<style>标签中存放了字体大小,为14px
<defs>标签内容如下:
发现 id值在递增,每一行 d="M0 (.*?) H600"括号里的值也在递增变化。
<text>标签内容如下:
<textPath> 标签中 xlink:href = ‘#num’ 为 css 选择器,绑定了 <defs>/<path> 的 id;
<textPath>值为一串汉字字符串。
上图在在界面中应显示为“大”字。
在svg的defs标签中的d值为1848为大于1825且最接近1825的值,所以此时id为46。
接下来在text标签下首先定位到46,接下来用svg字体的x除以字体大小(14)为26,发现26正好为大字。
二 是这种x,y形式如下图所示:
这种类似,首先找到svg字体y坐标,取大于y且与其最接近的一行,再用相同思路利用x来找到对应的字符即可。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。