当前位置:   article > 正文

世界杯数据处理和分析-Python程序设计语言_python爬取世界杯历年数据

python爬取世界杯历年数据

1、所实现的项目内容(文字简要描述,以要点的形式表述);

本次实验,实现了对历年世界杯的各项数据进行处理。

  1. 历年的观众的人数散点图分析
  2. 历年进球总数的散点图分析

3. 获得冠军的国家的冠军次数统计

4. 夺冠大洲的分布图分析

5. 作为东道主的夺冠概率分析

6. 比赛总进球数的排名分析

2、实验过程

1. 导入第三方包:导入numpy、pandas、matplotlib、seaborn包。

2.导入数据表(世界杯成绩汇总表),并设置全局的绘图参数。

3.绘制历年的观众的人数的散点图和进球总数的散点图:

设置刻度参数,设置边框和坐标轴标签:

设置刻度并储存表格,将观众人数散点图打印在屏幕上:

进球总数的散点图:

4. 得冠军的国家的冠军次数统计:

调色,设置画布大小和边框,并进行绘图

设置x,y轴的标签,防止中文乱码。并提取条形的值

5. 绘制夺冠大洲的分布图:

设置标签文本,value_count用于数据表的计数

设置饼图的比例,格式为数组或占比的序列,决定扇形的面积

设置图形参数并打印

6.绘制作为东道主的夺冠概率分析:

将winner和hostcountry作比较,赋值ture和false

标签文本,value_count用于数据表的计数

设置饼图的比例,决定扇形面积

7. 比赛总进球数的排名统计:

导入数据:比赛信息表

类型转化,astype()函数可用于转化dateframe某一列的数据类型

格式化比赛结果

比赛进球数分析:

排序函数,将total_goals排序

绘制柱状图,调用vs数据并显示在y轴上

体育场比赛时间等信息,并打印在屏幕上:

三、结论

1.实验结果

(1)历年的观众的人数散点图

可以看出世界杯观众人数有逐年上升的趋势,存在较小的波动。

(2)历年进球总数的散点图

 可以看出进球总数整体呈现上升的趋势,中间有几年出现了较大的波动。

(3) 获得冠军的国家的冠军次数统计

可以看出,巴西获得冠军的次数最多。而英格兰和西班牙获得冠军的次数最少。

(4)夺冠大洲的分布图

欧洲夺冠的国家多于美洲夺冠的国家,欧洲有12个国家曾夺冠,美洲有9个国家曾夺冠

(5)作为东道主的夺冠概率分析

可以看出,作为东道主的国家,夺冠的概率为百分之29

(6)比赛总进球数的排名

2.分析与讨论:

本次实验使用了Python语言和数据分析的方法,实现了对历年世界杯的各项数据进行处理。主要使用了Matplotlib的子类pyplot进行绘图,进行数据的可视化;使用Numpy用于科学计算;并用pandas用于处理数据框;使用了astype()函数转换数据类型,使用了排序函数进行排序;

通过这次实验,我对数据的分析,预处理和可视化有了更深入的认识,

对Python语言有了更深刻的理解。

实现一个较为完善的、逻辑上较为完整的程序。主题不限,可以是一个数据分析项目,可以是一个网络爬虫项目,可以是一个游戏,也可以是一个Web系统等。

实验报告写作要点:

首选列出你具体实现了哪些功能,然后依次写出整个实验的的基本步骤,辅以相应文字说明,并提交相应的源代码.py文件及实验报告文档。将创建的程序运行结果截图,分析讨论实验过程中的心得与体会。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/937292
推荐阅读
相关标签
  

闽ICP备14008679号