赞
踩
数据变换的概念和数据离散化
在数据预处理过程中,不同的数据适合不同的数据挖掘算。数据变换是一种将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。
在数据变换中,数据被变换或统一成适合于挖掘的形式。数据变换策略包括如下几种:
令minA和maxA表示属性A的最小值和最大值,最小—最大值标准化将值vi映射为vi’(范围是[new_minA, new_maxA]:
最小—最大值标准化保留了原有数据值的关系。如果后来的输入的标准化的数据落在了原有数据区间的外面,将会发生过界的错误。
假定收入属性的最小值和最大值分别是$12,000和$98,000. 将收入属性映射到范围[0.0, 1.0]上。则一个值为$73,600的收入标准化为。
属性A的值,基于平均值和标准差来标准化。计算公式:
其中A¯和σA是属性A的均值和标准差。这种方法在实际的最小值和最大值未知时很有用,或者离群点主导了最小—最大值的标准化。
3.2.4 z-分数标准化——例子*
假定income属性的均值和标准差是$54,000和$16,000。使用z-分数标准化,则$73,600被转换为: 。
分箱并不使用类信息,因此是一种非监督的离散化技术,对用户制定的箱个数很敏感,也容易受离群点的影响。
直方图分析也是一种非监督离散化技术,因为它不使用类信息。
聚类将数据划分成簇或组;离散化的决策树方法是监督的,它们使用了类标号(分类)。
现在,我们考察标称数据的数据变换。特别地,我们研究标称属性的概念分层产生。标称属性具有有穷多个不同值(但可能很多),值之间无序。例如地理位置、工作类别和商品类型。
1、对于用户和领域专家而言,人工定义概念分层是一项乏味和耗时的任务。幸运的是,许多分层结构都隐藏在数据库的模式中,并且可以在模式定义级自动地定义。
2、概念分层可以用来把数据变换到多个粒度层。例如,关于销售的数据挖掘模式除了在单个分店挖掘之外,还可以针对指定的地区或国家挖掘。
假设用户从数据库中选择了一个关于location的属性集country(15), province_or_state(365),city(3567), street(674339),但没有指出这些属性之间的分层次序。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。