赞
踩
数据要得以应用,必须是高质量的。高质量包括以下6点:
1. 准确性
2. 完整性
3. 一致性
4. 时效性
5. 可信性
6. 可解释性
造成数据不准确、不完整、不一致的原因:
eg.
不准确:比如用户填写数据故意填错。
不完整:比如采集器故障,不能上传数据。
不一致:上传的数据格式不一致。
不完整:缺少属性值
噪音:错误或者偏离期望的值
填充缺失值、光滑噪音、识别离散群、纠正数据一致性。
最优的方法:回归、贝叶斯
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。