赞
踩
目录
最近单位有购书计划,想选几本关于数据的还不错的书看看,去某东、某猫、某当网,发现销量高的在豆瓣上大家对书的评论不一定好,但豆瓣关键词搜索又没有评分排序功能,还得考虑评论人数的影响,这样一个个看太慢,要疯了!
审题:想选几本关于数据的还不错的书看看,发现销量高的在豆瓣上大家对书的评分不一定好,但豆瓣关键词搜索又没有评分排序功能,还得考虑评论人数的影响,这样一个个看太慢
目标页面:豆瓣、关键词数据搜索
目标信息:评分、评论人数、图书链接
实施方案:利用爬取工具八爪鱼,实现数据快速抓取,并导出Excel进行快速筛选;也可以导入Mysql数据库作为本示例的一个拓展。
八爪鱼 | 8.2.2.111911 |
Excel | 随意 |
Navicat | 12.0.11(64位) |
mysql | 5.7.21-log |
不好意思,放错了。
打开豆瓣读书,搜索关键词:数据,观察搜索结果第一、二、三页。
发现规律没有,第2页的页面与第1页的页面只是尾巴处相差15,第3页与第2页间隔也是15,不难发现15是一页所包含的书信息数,截至写文章前一共134页,故134*15 = 1995是最后一页。
现在我们可以找到所有搜索页面的规律,把网页看成前缀+尾巴的形式,那么前缀就是:https://search.douban.com/book/subject_search?search_text=%E6%95%B0%E6%8D%AE&cat=1001&start=,尾巴(起:0~终:1995)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。