赞
踩
数据清洗:把脏数据清洗掉,提高数据质量。
Data cleansing, Data cleaning, Data scrubbing三种表达方式都可以,意思都是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声。
数据清洗分为有监督清洗和无监督清洗两类。
数据清洗一般包括数据分析,定义和执行清洗规则,清洗结果验证等步骤:
根据相关的业务知识,应用相应的技术,如统计学,数据挖掘的方法,分析出数据源中数据的特点,为定义数据清洗规则奠定基础。
除手工测查数据或数据样本之外,还可以用专门的分析程序来分析数据源。
数据分析的结果是数据源一些数据质量问题的描述,被保存到元数据库中。
主要的清洗规则包括:
* 空值的检查和处理
* 非法值的检测和处理
* 不一致数据的检测和处理
* 相似重复记录的检测和处理
对定义的清洗转换规则的正确性和效率进行验证和评估,当不满足清洗要求时要对清洗规则或系统参数进行调整和改进。
数据清洗过程中往往需要多次迭代的进行分析,设计和验证。
空值数据的清洗
空值数据的语义
空值数据的处理方法
不一致数据属性清洗
噪声数据的清洗
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。