当前位置:   article > 正文

泰坦尼克号数据_数据挖掘经典实例——泰坦尼克号幸存者预测

泰坦尼克号数据分析背景

3969427646a4732fe189ee475a8fe141.png

泰坦尼克号幸存者预测是kaggle上一个较为经典的数据分析案例,之前做了这个案例,今天向大家分享一下自己的学习笔记。

小伙伴注意了,本次实例分为两部分,第一部分(也就是本篇)我们会用我们之前使用过的一些数据挖掘方法来对数据集进行探索,并进行幸存者预测;第二部分(下篇)我们会使用机器学习的内容,利用分类树模型来进行幸存者预测。

数据集来源:

https://www.kaggle.com/c/titanic​www.kaggle.com

为了让部分没看过《泰坦尼克号》这部电影的小伙伴也能对数据背景有一个基本认识,我们简单概括一下背景

泰坦尼克号的沉没是世界上最严重的海难事故之一,造成了大量的人员伤亡。这是一艘号称当时世界上最大的邮轮,船上的人年龄各异,背景不同,有贵族豪门,也有平民旅人,邮轮撞击冰山后,船上的人马上采取措施安排救生艇转移人员,从本次海难中存活下来的,也就是幸存者。

而这也引出了我们今天的主题:通过挖掘数据中的关键信息来预测一下哪些人可能成为幸存者

下面,正文开始~


一、数据导入及基本了解

  1. import numpy as np
  2. import pandas as pd
  3. df = pd.read_csv(r'C:UsersAdministratorDesktopdata.csv',encoding='utf-8')

为了方便,我们将等会可能需要用到的库一并导入:

  1. from matplotlib import pyplot as plt
  2. %matplotlib inline
  3. plt.style.use('fivethirtyeight')
  4. import seaborn as sns
  5. sns.set()
  6. import warnings
  7. warnings.filterwarnings('ignore')

1、查看前10行数据

df.head(10)

66f808fdc05e92bd5411e40ac1b045c9.png

2、查看数据大小

df.shape

d2e6bf1d67be3c8ebf21e2cd8ddc5006.png

可以看到,我们的数据集有891个样本,12个特征。

3、查看特征

df.info()

5955934b4a88a6864d11ae90728b4a24.png

其中,

Survived:代表是否幸存,0否,1是

Pclass:船舱等级,1最好,2次之,3最后

Sib

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/718121
推荐阅读
相关标签
  

闽ICP备14008679号