赞
踩
壹
猫眼Top100电影数据分析概述
从这一节开始,我们就综合利用已学到的一些分析技术来尝试做一些比较复杂的实际数据分析项目。在这些实际的项目案例中,我们将会看到一个完整的数据分析流程:数据清理——数据分析——数据可视化(即数据解释)。最终使得用户能够一眼看清楚一批复杂数据中所蕴含的知识。
本节所要讲的一个案例是:对利用爬虫手段从猫眼网站所爬下来的Top100的电影数据展开分析。在爬下来的电影数据集中,最重要的数据包括影片的主演、影片的上映时间、制作国、影评分等。
而我们想知道的是:在这批数据中,主要有哪些国家制作了这些脍炙人口的影片、最著名的演员都有哪些、不同的年份或不同的月份下影片的上映情况、不同影评分下的影片数量分布情况等信息。通过这些信息我们就知道,哪些国家发型的大片最多,哪些年份上映的好看影片最多,通常都会集中在哪些月份进行集中上映,同时我们还能知道最受观众喜爱的演员都有哪些。最后我们还能够清楚地看到,在这100部影片中,大部分影片的一个打分情况。
现在,就让我们来具体分析一下这批影片数据。关于影片数据集如何获取的,大家可以利用我们所介绍过的爬虫技术从猫眼网站进行爬取,这里就不再单独介绍。
此外,我们在本项目中采用了百度开发出来的pyecharts库来开展可视化操作,它在当前项目中要比Matplotlib库更加好用,尤其是在折线图的展示上。
如果没有安装过这个可视化库的,可以参考一下下面这个网址所提供的一个安装思路:
https://blog.csdn.net/zqs305082800/article/details/84581299
另外一个库:collections,则可用于快速统计不同数据出现的次数。非常方便。
感兴趣的小伙伴们可以考虑对pyecharts库和collections库做一个深入了解,必将对你的数据分析工作有莫大帮助。
PS:本项目案例中的代码都是成段出现,并非是连一片出现的,这是因为我在测试的过程中发现:若把这些片段的代码集中到一起,最终只能展示出最后的那个分析结论的可视化效果图,其余分析结论的可视化展示就会失效。故而我这里选择了分段来讲解。
再有一点需要说明的是:本项目案例中,有些处理逻辑参考借鉴了一丢丢前辈们的有益思路。因此,如果你觉得这里的分析处理逻辑似曾相识,请不要过于惊讶,哈哈哈!但我会尽可能地把我对这个项目分析案例的理解以及对这些理解的实现展示地更透彻一些!
贰
展示数据集的基本信息
首先,我们将数据导入到代码中,并查看一下这批数据集的基本信息以及一些基本的统计量分析结果。对于影评分,我们可以查看它的平均分、最大值、最小值等。然后我们就开始对数据集中的一些数据做进一步的分析处理,并以可视化的形式展示给大家。这里所要分析的数据就是影片的上映日期,先看看不同年份下所上映的影片数的一个分布情形,以折线图进行展示:
import pandas a
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。