赞
踩
本文分两部分:
1.描述分析部分,着重进行数据的可视化分析,图片使用Python绘图包matplotlib生成,使用ppt制作为图文形式方便阅读,图片生成代码和分析过程代码在第二部分呈现;
2.具体操作部分,呈现完整的数据分析流程和全部代码。
描述分析报告
2.具体操作和代码呈现
数据理解项目说明
数据内容说明
提出问题
理解数据
数据清洗检查缺失值
检查并处理异常值
分析数据整体观察
逐项展示
项目说明
数据来源于CSDN,碰巧看到我感兴趣的数据于是便下载来分析,利用pandas包导入数据再用matplotlib包对数据进行可视化处理。让读者直观感受历届世界杯概况。https://download.csdn.net/download/willty/10490897download.csdn.net
数据内容说明数据是从1930年第一届世界杯开始到2014年,没有2018的数据。所以只截止到2014年。
世界杯历史上有2次决赛是平局用点球大战决胜负的,但是数据没记录点球
大战的成绩于是我手动添加点球大战的比分进正常时间的比分里面了。
有些国家前后名字有变动如苏联,就没有去更改。德国以前叫Germany FR就改成了现在的Germany。
由于1938-1950间正值一,二战时期1942,1946年世界杯取消。
提出问题主队和客队那个胜率更高,主场优势是否存在。
观众对于世界杯的热情发展趋势如何。
足球强国那么多到底哪个国家才是世界杯大热门。
理解数据
Year: 年份Datetime: 日期
Stage: 比赛类别(小组赛,决赛等)
Stadium: 场馆
Home Team Name: 主队名
Home Team Goals: 主队得分
Away Team Name: 客队名
Away Team Goals: 客队得分
Attendance: 观众数量
Half-timeHomeGoals: 主队上半场进球
Half-timeAwayGoals: 客队上半场进球
Referee: 主裁名字和国籍
Assistant 1: 边裁1名字和国籍
Assistant 2: 边裁2名字和国籍
RoundID: 轮次ID
MatchID: 赛事ID
Home Team Initials: 主队简称
Away Team Initials: 客队简称
数据清洗
导入数据:
import pandas as pd
xls=pd.ExcelFile('D:\\WorldCupMatches.xlsx')
Matches=xls.parse('WorldCupMatches')
Matches.head()
Matches.drop_duplicates(subset=['MatchID'],keep='first',inplace=True)
Matches.info()
由于赛事ID唯一所以删除重复值,最后得到836行的数据。
Matches['Attendance']=Matches['Attendance'].fillna(int(Matches['Attendance'].mean()))
由于观众人数缺失了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。