赞
踩
缺失值:1、删除:数量较少,对整体数据没什么影响的直接删除该条数据。2、对缺失数据插补:方法较多,例如用该属性的均值、众数、中位数插补,这些较为简单,不详述;最近邻插补,使用与缺失样本最接近的样本的该属性值插补;回归法(建模预测):就是根据样本集的其他属性来建立一个拟合模型预测缺失属性的值,根据模型来计算缺失值。常用的缺失值处理方法就这些,还有许多其他的方法,如拉格朗日插值等等。
异常值:首先要知道如何找出某个属性的异常值。我一般用的方法是画箱型图,
下四分位数(Q1)=(数据个数+1)0.25
上四分位数(Q3)=(数据个数+1)0.75
盒子长度IQR = Q3-Q1
最小观测值(下边缘)=Q1 - 1.5IQR
最大观测值(上边缘)=Q3+ 1.5IQR
不在最小最大观测值范围内的视为异常值
处理异常值:1、直接删除,2、当作缺失值、用缺失值的处理方法;3、暂时保留。
无关值:像id这种无关的属性直接删掉即可,样本集中可能还有其它的无关属性,需要根据业务情况具体分析才行。
噪音:1、分箱:通过考察相邻数据来确定最终值。实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。分箱的方法一般有等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。按平均值平滑:对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。按边界值平滑:用距离较小的边界值替代箱中每一数据。按中值平滑:取箱子的中值,用来替代箱子中的所有数据。
2、聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
3、回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。
重复值:对于重复项的判断,基本思想是“排序与合并”,先将数据集中的记录按一定规则排序,然后通过比较邻近记录是否相似来检测记录是否重复。这里面其实包含了两个操作,一是排序,二是计算相似度。一般过程中主要是用duplicated方法进行判断,然后将重复的样本进行简单的删除处理。
数据集成就是为了将不同数据源的数据整合导一个数据库中,需要注意的是集成过程中可能产生的问题:
属性(字段名)意义问题:即同一字段名所代表的含义不一样,例如’日期‘,可能一个数据源中表示生产日期,一个数据源表示’保质日期‘;
字段结构问题:即不同的字段名表示的是一样的数据;字段的数据类型不同;字段数据格式不同;字段单位不同等;
字段冗余问题:集成后的字段之间具有较强的相关性,可以相互推导出。(ps:相关性的计算可以用卡方检验或者协方差,皮尔逊相关系数等)
一般在集成前,可以先做个表将个数据源的字段名,类型等统计一下,再做处理。
个人觉得数据变换和数据规约其实等同于特征工程所要做的事,这里简单介绍下。
数据变换就是对数据做归一化,标准化等处理,例如不同的属性的值的量纲或者取值范围相差过大。
数据规约则是对减少过多的属性(维度、特征)对预测的模型的影响,常用方法:合并属性,主成成分分析(PCA),逐步向前(向后删除)、低方差特征过滤、one-hot编码等。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。