赞
踩
本文旨在对豆瓣图书榜单TOP250进行数据分析,主要包括数据抓取、数据清洗和数据分析。
豆瓣图书top250的数据爬取比较简单,使用requests发送请求,使用lxml模块的xpath表达式提取数据。难点在于价格、出版年份、出版社等信息在一起,需要使用python的字符串处理方法将各种数据分离,包括作者评价人数等信息都需要做替换、去除空格等等字符串操作处理。爬取的数据经过处理如下图所示,代码附后:
绘制词云图,需要使用jieba库进行分词,使用collections库进行词频
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。