赞
踩
参考:《数据科学手册》–Field Cady
特征工程在实际业务中的应用 -Datawhale
这篇特征工程的文章–全网最通透 -kaggle竞赛宝典
寻找基本特征,构建组合特征有些区分不同label的样本。
建模就是从数据中学习到insights过程,需要经过数据表达,模型的学习两步
几个指标:
举例
了解业务知识:
1.有的放矢,提高建模效率(降低试错成本)和保证模型效果下限
2.避免特征过多拟合
银行贷款申请–风控专家访谈
线上推荐–运营人员访谈过去推荐商品的规则信息
特征工程最擅长工业界异质表格数据
在知识学习上其党的模型,不复杂引入过多噪声,不简单不足支撑。
机器学习使用特征的过程,是人脑把数据经过处理,精炼后得到更接近结果的表达,更直白的得到预测目标
1.计算相关系数
data.corr()
2.画出相关性热力图
sns.heatmap()
3.根据相关系数筛选特征变量(适用于判别线性相关)
corr.nlargest(k,‘target’)[‘target’].index
寻找K个与target变量最相关的特征变量(K)
然后找出与target变量的相关系数大于0.5的特征变量
4.使用树模型的特征重要性选择
5.Box-Cox变换
由于线性回归是基于正态分布的,因此在进行统计分析时,需要将数据转换使其符合正态分布
BoxˉCox变换是统计建模中常用的_种数据转换方法°在连续的响应变量不满足正态分布时,可以使用BoxˉCox变换’这一变换可以使线性回归模型在满足线性、正态性、独立性及方差齐性的同时,又不丢失信息°在对数据做BoxˉCox变换之后’可以在_定程度上减小不可观测的误差和预测变量的相关性,这有利于线性模型的拟合及分析出特征的相关性°在做BoxˉCox变换之前’需要对数据做归_化预处理°在归一化时’对数据进行合并操作可以使训练数据和测试数据_致°这种方式可以在线下分析建模中使用’而线上部署只需采用训练数据的归一化即可。
sklearn.impute.SimpleImputer
sklearn.preprocessing.FunctionTransformer
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。