赞
踩
针对这次豆瓣读书数据的分析,我们要解决以下问题:
1、 最受欢迎的书籍
2、 最受欢迎的作者
3、 业务最好的出版社
4、 质量最好/最差的书籍
5、 书籍评分和评论数量关系
我们的豆瓣读书数据一共有60672条记录,数据包含以下字段:书名、作者、出版社、出版时间、页数、价格、ISBN、评分、评论数量。
我们选择首先删除数据的重复值,这可以避免后续无意义的运算。
数据>数据工具>删除重复值>全选
这一列有两种缺失值,一是【None】,二是【点击上传封面图片】,失去书名的记录没有利用价值,我们筛选出这两种情况并将其删除。
我们对”作者”这一字段的缺失值以”佚名”填充,”出版社”以”某出版社”填充,”ISBN”以 “*”填充。
选中”作者”所在列,Ctrl + F 查找 “None”>查找全部,选中所有查找出来的内容>替换>“佚名”>全部替换。
对于”出版社”也是相同的操作。
页数、评分和评论数的缺失值占比都很小,我们选择用平均值填充。
页数的数据类型混乱,需要做额外处理。
我们可以看到页数这一个字段下的数据非常混论,有些单元格含有字母、符号以及其它语言,我们把这些非数字的单元格以页数的平均值填充。
怎么从内容混乱的单元格内提取出只含有数字的单元格呢?
筛选>条件格式>新建规则
选择”使用公式确定单元格格式”,我们使用公式”=ISNUMBER(-E2)”选出类型为数字的单元格,并以颜色填充。
以颜色筛选,算出所有数字单元格的平均值,以平均值填充None值。
我们使用TRIM()函数删除所有数据前后的空格。
对于出版日期中不规范的数据,如”2019.5.4”,用”/”替换掉”.”,选中”出版日期”,使用分列功能将出版日期整理成统一的日期格式。
数据>数据工具>分列>下一步>下一步>日期
对于出版日期,我们只需要年份就可以了,使用”LEFT()”函数,截取字符串前4位,结果发现有些数据是正常的,有些则是计算由1900年到单元格数据的时间间隔,两者数据不统一,那我们将出版日期用分列功能将其设置为文本,然后使用”LEFT()”函数截取年份。
隐藏其它字段,保留书名、评分和评论数:
可以看到,在这九本最受欢迎的书中,国内外经典文学占有四部,大家还是很喜欢经典文学的,科幻占两部,都是刘慈欣的《三体》。
插入数据透视表,以作者为行标签,评分作为求和项筛选除”佚名”外的前10名作者:
可以看出,前三名分别是亦舒、鲁迅和王小波,亦舒评分最高,远大于第二名和第三名,前两名远大于其他作者。
从表中筛选出版时间为2009-2019年的记录,插入数据透视表,选择出版社为行标签,ISBN为计数项,降序排列:
筛选出版批次前10的出版社并做成条形图:
可以看出中信出版社近十年出版书籍批次最多,远多于第二名人民邮电出版社和第三名机械工业出版社,第四名以后的出版社差距不是很大。
我认为评论越多,书籍评分就越高,受大众欢迎的书,才会吸引大量的关注和评论,那到底是不是这样呢?
我们用散点图来描绘评分和评论数量的分布。选取评分和评论数,并计算出它们的平均数。
分别以评分和评论为X、Y轴,在坐标轴上相交于各自的平均数:
评分AVG:7.172144
评论数AVG: 743.4698
从上图可以看出,随着评分的增大,评论数呈现先增加后减小的趋势,零星几个评论很高的点位都是高于评分平均数,大部分书籍评分都在平均分以上(均值小于众数)。
从散点图可以知道大部分书籍质量都不错并且评论数高的书籍评分都高;。
对于评分不错但评论不高的书籍,我猜测是因为书籍的读者不够多,或者某类书籍的读者性格类似,都不太喜欢参与评论,但数据中没有给出书籍分类以及读者的相关信息,无法做出更多的分析。
通过这次豆瓣读书数据的分析,我们得到以下结论:
1、豆瓣读者最喜欢阅读国内外经典名著,如《飘》、《百年孤独》、《红楼梦》、《三国演义》,看来经典的书籍也很流行;
2、亦舒和鲁迅是最受读者喜爱的作者且受欢迎程度远大于其他同行;
3、09年至今,中信出版社出版最多书籍,数量远大于其它出版社;
4、大部分书籍评分都不错,评论区最火热的书籍往往评分也很高。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。