赞
踩
泰坦尼克号幸存者预测是kaggle上一个较为经典的数据分析案例,之前做了这个案例,今天向大家分享一下自己的学习笔记。
小伙伴注意了,本次实例分为两部分,第一部分(也就是本篇)我们会用我们之前使用过的一些数据挖掘方法来对数据集进行探索,并进行幸存者预测;第二部分(下篇)我们会使用机器学习的内容,利用分类树模型来进行幸存者预测。
数据集来源:
https://www.kaggle.com/c/titanicwww.kaggle.com为了让部分没看过《泰坦尼克号》这部电影的小伙伴也能对数据背景有一个基本认识,我们简单概括一下背景:
泰坦尼克号的沉没是世界上最严重的海难事故之一,造成了大量的人员伤亡。这是一艘号称当时世界上最大的邮轮,船上的人年龄各异,背景不同,有贵族豪门,也有平民旅人,邮轮撞击冰山后,船上的人马上采取措施安排救生艇转移人员,从本次海难中存活下来的,也就是幸存者。
而这也引出了我们今天的主题:通过挖掘数据中的关键信息来预测一下哪些人可能成为幸存者。
下面,正文开始~
- import numpy as np
- import pandas as pd
- df = pd.read_csv(r'C:UsersAdministratorDesktopdata.csv',encoding='utf-8')
为了方便,我们将等会可能需要用到的库一并导入:
- from matplotlib import pyplot as plt
- %matplotlib inline
- plt.style.use('fivethirtyeight')
- import seaborn as sns
- sns.set()
- import warnings
- warnings.filterwarnings('ignore')
1、查看前10行数据
df.head(10)
2、查看数据大小
df.shape
可以看到,我们的数据集有891个样本,12个特征。
3、查看特征
df.info()
其中,
Survived:代表是否幸存,0否,1是
Pclass:船舱等级,1最好,2次之,3最后
Sib
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。