赞
踩
根据数据源的多少和所属层次(定义层和实例层)分为4类
数据清洗是指消除数据中存在的噪声及纠正其不一致的错误
的数据集。
遗漏数据处理
1)忽略该条记录。
2)手工填补遗漏值。
3)利用默认值填补遗漏值。
4)利用均值填补遗漏值。
5)利用同类别均值填补遗漏值。
6)利用最可能的值填补遗漏值。
噪声数据处理
1)Bin方法
Bin方法通过利用应被平滑数据点的周围点(近邻),对一组排序数据进行平滑。排序后的数据被分配到若干桶(称为Bins)中。对Bin的划分方法一般有两种,一种是等高方法,即每个Bin中的元素的个数相等,另一种是等宽方法,即每个Bin的取值间距相同。
2)聚类分析方法
通过聚类分析方法可以帮助发现异常数据。相似或临近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是异常数据。
3)人机结合检查方法
通过人机结合检查方法,可以帮助发现异常数据。
4)回归方法
利用拟合函数对数据进行平滑。
不一致数据处理
1)现实世界的数据库常出现数据记录内容不一致的问题,其中的一些数据可以利用它们与外部的关联,手工解决这种问题。
概念
数据集成是指将来自多个数据源的数据合并到一起构成一个完整数据集合。
主要问题
1)模式集成问题
模式集成问题就是如何使来自多个数据源的现实世界的实体相互匹配,这其中就涉及实体识别问题。
2)冗余问题
若一个属性可以从其他属性中推演出来,那这个属性就是冗余属性。
概念
数据转换是指将一种格式的数据转换为另一种格式的数据
处理内容
1)平滑处理
帮助去除数据中的噪声,主要技术方法有Bin方法、聚类方法和回归方法。
2)合计处理
对数据进行总结和合计操作。
3)数据泛化处理
用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。
4)规格化处理
将有关属性数据按比例投射到特定的小范围之中。
– 最大最小规格化方法:(待转换属性值 - 属性最小值) / (属性最大值 - 属性最小值)* (映射区间最大值 - 映射区间最小值)+ 映射区间最小值
– 零均值规格化方法:(待转换属性值 - 属性平均值)/ 属性方差
– 十基数变换规格化方法:待转换属性值 / 10 jn,其中j为能够使属性绝对值的最大值小于1的最小值。
5)属性构造处理
根据已有属性集构造新的属性,以帮助数据处理过程。
离散化技术方法可以通过将属性阈值范围分为若干区间,来帮助消减一个连续属性的取值个数。
数值概念层次树的主要构造方法
1)Bin方法
2)直方图方法
3)聚类分析方法
4)基于熵的方法
5)自然划分分段方法
类别概念层次树
类别数据是一种i离散数据。类别属性可取有限个不同的值且这些值之间无大小和顺序。
构造类别属性的概念层次树的主要方法
1)属性值的顺序关系已在用户或专家指定的模式定义中说明。
2)通过数据聚合来描述层次树。
3)定义一组属性但不说明其顺序。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。