赞
踩
知识点描述:简单的数据预处理和特征工程
我们的学习目标有四个:
无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler
缺失值处理
处理分类型特征:编码与哑变量
处理连续型特征:二值化与分段
一种特征常见的特征类型就是分类特征(categorical feature),也叫离散特征(discrete feature)。
one-hot编码(虚拟变量):将一个分类变量替换为一个或多个新特征。分类特征通常用整数进行编码:一个整数特征应该视为连续的还是离散的(one-hot编码),有时并不明确。对同时包含训练数据和测试数据的数据框调用get_dummies后训练集和测试集。分箱、离散化、线性模型与基于树的模型(比如决策树、梯度提升树和随机森林)。
分类编码:通常用整数进行编码为字符串,如果在被编码的语义之间没有顺序关系,那么特征必须被视为离散特征。
交互特征与多项式特征 用来表示数据点所在箱子以及数据点在x轴上的位置。
自动化特征选择:单变量统计:计算每个特征和目标值之间的关系是否存在统计显著性,然后选择具有最高置信度的特征。对于分类问题,这也被称为方差分析。这些测试的一个关键性质就是它们是单变量。即它们只单独考虑每个特征。因此,如果一个特征只有与另一个特征合并时才具有信息量,那么这个特征将被舍弃。基于模型的选择:使用一个监督学习模型来判断每个特征的重要性,并且仅保留最重要的特征。特征选择模型需要为每个特征提供某种重要性度量,以便用这个度量对特征进行排序。基于决策树的模型提供feature_importances_属性,可以直接编码每
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。