赞
踩
导语
这周末就分享个小爬虫吧。利用Python爬取并简单地可视化分析当当网的图书数据。
img
开发工具
Python版本:3.6.4
相关模块:
requests模块;
bs4模块;
wordcloud模块;
jieba模块;
pillow模块;
pyecharts模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
数据爬取
任务:
根据给定的关键字,爬取与该关键字相关的所有图书数据。
实现:
以关键字为python为例,我们要爬取的图书数据的网页页面是这样子的:
img
其中,网页的链接格式为:
http://search.dangdang.com/?key={keyword}&act=input&page_index={page_index}'
因此请求所有与关键词相关的链接:
img
然后利用BeautifulSoup分别解析返回的网页数据,提取我们自己需要的数据即可:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。