当前位置:   article > 正文

利用免费工具爬取关键词(数据)的豆瓣读书数据——八爪鱼爬取数据并导出到Excel/Mysql数据库设置示例——关键词:爬虫、读书、实用_八爪鱼爬取数据的实例

八爪鱼爬取数据的实例

目录

原始需求

需求解读

所需软件配置

软件介绍

八爪鱼

Excel

Navicat

Mysql

数据采集及保存

步骤1  探索搜索页面规律

步骤二  八爪鱼批量生成链接,添加参数(前缀+尾巴)

步骤三  采集数据(书名、评分、评分人数、详情链接)

步骤四  评分人数采集处理

步骤五  导出Excel/导入Mysql

A:导出到Excel 

B:导入Mysql

关于 重试 和 出现指定元素后执行 设置先放这里 :

小结




原始需求

最近单位有购书计划,想选几本关于数据的还不错的书看看,去某东、某猫、某当网,发现销量高的在豆瓣上大家对书的评论不一定好,但豆瓣关键词搜索又没有评分排序功能,还得考虑评论人数的影响,这样一个个看太慢,要疯了!


需求解读

审题:想选几本关于数据的还不错的书看看,发现销量高的在豆瓣上大家对书的评分不一定好但豆瓣关键词搜索又没有评分排序功能还得考虑评论人数的影响这样一个个看太慢

目标页面豆瓣、关键词数据搜索

目标信息评分评论人数图书链接

实施方案:利用爬取工具八爪鱼,实现数据快速抓取,并导出Excel进行快速筛选;也可以导入Mysql数据库作为本示例的一个拓展。


所需软件配置

八爪鱼 8.2.2.111911
Excel 随意
Navicat

12.0.11(64位)

mysql 5.7.21-log

软件介绍

八爪鱼

不好意思,放错了。

Excel

Mysql


数据采集及保存

步骤1  探索搜索页面规律

打开豆瓣读书,搜索关键词:数据,观察搜索结果第一、二、三页。

发现规律没有,第2页的页面与第1页的页面只是尾巴处相差15,第3页与第2页间隔也是15,不难发现15是一页所包含的书信息数,截至写文章前一共134页,故134*15 = 1995是最后一页。

现在我们可以找到所有搜索页面的规律,把网页看成前缀+尾巴的形式,那么前缀就是:https://search.douban.com/book/subject_search?search_text=%E6%95%B0%E6%8D%AE&cat=1001&start=,尾巴(起:0~终:1995)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/811507
推荐阅读
相关标签
  

闽ICP备14008679号