赞
踩
对于类别型变量,如果某个出现频率太小,太稀有,就可能是异常值
对于区间型变量,可以从小到大排,比如最大的前0.1%就是异常值。或者,超过n个标准差的是异常值
对于区间型变量,如果分布不光滑(或有噪声),不对称分布
目的:
改善分布的措施
分箱转换(Binning)就是把区间型变量转换成次序型变量。目的:
数据的标准化(Normalization)转换主要目的是将数据按比例缩放,使之落入一个小的区间范围内,使得不同的变量经过标准化处理后可以有平等分析和比较的基础
最简单的数据标准化转换是Min-Max标准化,也叫离差标准化。是对原始数据进行线性变换,使得结果在[0, 1]区间
最简单常用的是通过自变量之间的线性相关性指标进行初步筛选。其中,尤其以Pearson Correlation最为常用。它主要用于比例型变量、区间型变量与区间型变量,以及二元变量与区间型变量之间的线性关系描述。
r=x与y的协方差/x的标差与y的标差的乘积
|r|<0.3,低度线性相关;大于0.8是高度相关。大于0.6以上的多个变量,保留一个就可以了。
如果r等于0,表明不存在线性关系,不能排除变量之间的其他相关关系,比如曲线关系等。
R平方(R-Square),借鉴多元线性回归的分析算法,判断和选择对目标变量有重要预测意义及价值的自变量。
R平方表示模型输入的各自变量在多大程度上可以解释目标变量的可变性,它的取值在0-1之间,越大,说明模型的拟合越好。
**卡方检验(Chi-Square Statistics)**属于非参数检验,主要用来度量类别型变量,包括次序型变量等定性变量直接的关联性以及比较两个或两个以上的样本率。其基本思想是比较理论频数和实际频数的吻合程度或拟合度。它是筛选自变量的重要方法。
当目标变量是二元变量,自变量是区间型变量时,可以通过IV(Information Value)和WOE(Weight of Evidence)进行自变量的判断和取舍。应用的时候,需要把区间型自变量转换成类别型自变量。
划分方法:
K-Means最噪声和异常值非常敏感。可以直接删除异常值或者随机抽样。
数据的标准化,标差标准化(Z-Score标准化)最常用,经过这种方法处理后的数据符合标准正态分布(均值为0,标差为1)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。