当前位置:   article > 正文

机器学习小目标--数据表示与特征工程_目标值和特征描述结合进行预测

目标值和特征描述结合进行预测

知识点描述:简单的数据预处理和特征工程

我们的学习目标有四个:

  • 无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler

  • 缺失值处理

  • 处理分类型特征:编码与哑变量

  • 处理连续型特征:二值化与分段

一种特征常见的特征类型就是分类特征(categorical feature),也叫离散特征(discrete feature)。

one-hot编码(虚拟变量):将一个分类变量替换为一个或多个新特征。分类特征通常用整数进行编码:一个整数特征应该视为连续的还是离散的(one-hot编码),有时并不明确。对同时包含训练数据和测试数据的数据框调用get_dummies后训练集和测试集。分箱、离散化、线性模型与基于树的模型(比如决策树、梯度提升树和随机森林)。

分类编码:通常用整数进行编码为字符串,如果在被编码的语义之间没有顺序关系,那么特征必须被视为离散特征。

交互特征与多项式特征 用来表示数据点所在箱子以及数据点在x轴上的位置。

自动化特征选择:单变量统计:计算每个特征和目标值之间的关系是否存在统计显著性,然后选择具有最高置信度的特征。对于分类问题,这也被称为方差分析。这些测试的一个关键性质就是它们是单变量。即它们只单独考虑每个特征。因此,如果一个特征只有与另一个特征合并时才具有信息量,那么这个特征将被舍弃。基于模型的选择:使用一个监督学习模型来判断每个特征的重要性,并且仅保留最重要的特征。特征选择模型需要为每个特征提供某种重要性度量,以便用这个度量对特征进行排序。基于决策树的模型提供feature_importances_属性,可以直接编码每

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/933879
推荐阅读
相关标签
  

闽ICP备14008679号