当前位置:   article > 正文

Datawhale之动手学数据分析第二章(一)_data_numerical=df[['age','distancefromhome','educa

data_numerical=df[['age','distancefromhome','education','environmentsatisfac

1.数据清洗简述

1.1缺失值观察

  • 方法一
  • df.info()
  • 方法二 
  • df.isnull().sum()

1.2缺失值处理

  • 方法一:删除

  • 方法二:保留

 

  • df['name'].fillna(0)
    1. #不用函数的保留方法 对缺失值进行0填充
    2. df[df['Age']==None] = 0
    3. df[df['Age'].isnull()] = 0
    4. df[df['Age'] == np.nan] = 0

 1.3重复值观察

df[df.duplicates()]

1.4重复值处理

df.drop_duplicates()

1.5保存清洗数据

df.to_csv('test_clear.csv')

2.特征观察与处理

2.1分箱操作

  • 将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示
  • df['AgeBand']=pd.cut(df['Age'], 5, labels=[1, 2, 3, 4, 5])
    
  • 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示
  • df['AgeBand']=pd.cut(df['Age'], [0, 5, 15, 30, 50, 80], right=False, labels=[1, 2, 3, 4, 5])
    
  • 将连续变量Age按10% 30% 50 70% 90%五个年龄段,并用分类变量12345表示
  • df['AgeBand']=pd.qcut(df['Age'], [0.1, 0.3, 0.5, 0.7, 0.9, 1.], labels=[1, 2, 3, 4, 5])
    

2.2对文本变量进行转换

2.2.1查看类别文本变量名及种类

  • 方法一:value_counts
  • df['Sex'].value_counts()
  • 方法二:unique
  • df['Sex'].unique()
  • df['Sex'].nunique()

         unique():以数组形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)

         nunique(): Return number of unique elements in the object.即返回的是唯一值的个数

2.2.2将文本变量Sex, Cabin ,Embarked用数值变量12345表示

  • 方法一:replace
    1. df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
    2. # 适用于种类较少的
  • 方法二:map
    1. df['Sex_num'] = df['Sex'].map({'male':1, 'female':2})
    2. #跟方法1一样,适用于种类较少的。
  • 方法三:使用sklearn.preprocessing的LabelEncoder
    1. from sklearn.preprocessing import LabelEncoder
    2. for feat in ['Cabin', 'Ticket']:
    3. lbl = LabelEncoder()
    4. label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
    5. df[feat + "_labelEncode"] = df[feat].map(label_dict)
    6. df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))
    7. #这种就无所谓种类的的多少了,均适用

2.2.3将文本变量Sex, Cabin, Embarked用one-hot编码表示

  1. for feat in ["Age", "Embarked"]:
  2. #x = pd.get_dummies(df["Age"] // 6)
  3. # x = pd.get_dummies(pd.cut(df['Age'],5))
  4. x = pd.get_dummies(df[feat], prefix=feat)
  5. df = pd.concat([df, x], axis=1)
  6. #df[feat] = pd.get_dummies(df[feat], prefix=feat)

2.3从纯文本Name特征里提取出Titles的特征

df['Title'] = df.Name.str.extract('([A-Za-z]+)\.', expand=False)

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/355811
推荐阅读
相关标签
  

闽ICP备14008679号