当前位置:   article > 正文

机器学习-天池竞赛O2O优惠券使用预测(python相关知识)_o2o优惠卷使用python特征工程

o2o优惠卷使用python特征工程

数据预处理部分

read_csv

pandas.read_csv参数详解

处理NAN、NAN详解

keep_default_na = False:
在利用read_csv读入数据时,对于空数据,pandas默认为NAN填充,利用这个语句可以用Null覆盖NAN.

NAN与任何数据都不相等,包括它本身。
  • 1

对于NULL,判断字段是否是空省值:

training_set.date == 'null'
  • 1

对于NAN,判断字段是否是空省值:

training_set.date == training_set.date
  • 1

pandas

参考:机器学习——Pandas库

参考:pandas基本操作函数

Pandas中 常用属性,查看概览信息

one-hot独热编码

isnull()函数

1、df.isnull()

元素级别的判断,把对应的所有元素的位置都列出来,元素为空或者NA就显示True,否则就是False

2、df.isnull().any()

列级别的判断,只要该列有为空或者NA的元素,就为True,否则False

3、df.isnull().sum()

将列中为空的个数统计出来

4、df[df.isnull().values==True]

可以只显示存在缺失值的行列,清楚的确定缺失值的位置。

5、test.columns[test.isnull().any()].tolist() #test是dataframe对象

将为空或者NAN的列找出来

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/358026
推荐阅读
相关标签
  

闽ICP备14008679号