当前位置:   article > 正文

国赛高教杯使用python/matlab必会基础数学建模-数据处理模块(课程4)_调整数据中的有关变量名称,统一单位,通常是数据归约的任务

调整数据中的有关变量名称,统一单位,通常是数据归约的任务

前言:我看有人的博客学习资料本就是基础知识然后还整个付费专栏博客,那我就直接打破这一垄断,直接上干货免费资料供大家学习。

国赛高教杯数据处理全过程总结

数据存在的问题

  ⚫ 数据预处理是数据挖掘中的重要一环,而且必不可少。要更有效地挖掘出知识,就必须为其提供干净,准确,简洁的数据。
  ⚫ 现实世界中数据常常是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。

原始数据存在的问题

  −数据的不一致:各系统间的数据存在较大的不一致性
如属性重量的单位:
  A数据库重量单位kg
  B数据库重量单位g
  −噪声数据:数据中存在着错误或异常(偏离期望值),如:血压和身高为0就是明显的错误。
  收集数据的时候难以得到精确的数据,主要原因:
  收集数据的设备可能出现故障;
  数据输入时可能出现错误;
  数据传输过程中可能出现错误;
  存储介质有可能出现损坏等。
  − 缺失值:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。
  − 原因可能有:
  ⚫ 有些属性的内容有时没有(家庭收入,参与销售事务数据中的顾客信息);
  ⚫ 有些数据当时被认为是不必要的;
  ⚫ 由于误解或检测设备失灵导致相关数据没有记录下来;
  ⚫ 与其它记录内容不一致而被删除;
  ⚫ 忽略了历史数据或对数据的修改。
  数据质量要求
  ⚫ 准确性:数据记录的信息是否存在异常或错误。
  ⚫ 完整性:数据信息是否存在缺失。
  ⚫ 一致性:指数据是否遵循了统一的规范,数据集合是否  保持了统一的格式
  ⚫ 时效性:某些数据是否能及时更新
  ⚫ 可信性:用户信赖的数据的数量
  ⚫ 可解释性:指数据自身是否易于人们理解
  数据预处理的主要任务
  ⚫ 数据清理(清洗):去掉数据中的噪声,纠正不一致。
  ⚫ 数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。
  ⚫ 数据归约(消减):通过聚集、删除冗余属性或聚类等方法来压缩数据。
  ⚫ 数据变换(转换):将一种格式的数据转换为另一格式的数据(如规范化)。

数据清理

  数据清理就是对数据进行重新审查和校验的过程。其目的在于纠正存在的错误,并提供数据一致性。
  • 缺失值的处理;
  • 噪声数据;
  • 不一致数据。
  空缺值的处理
  – 引起空缺值的原因
  • 设备异常
  • 与其他已有数据不一致而被删除
  • 因为误解而没有被输入的数据
  • 在输入时,有些数据因为得不到重视而没有被输入
  • 对数据的改变没有进行日志记载
  – 空缺值要经过推断而补上
  如何处理空缺值?
  1)忽略元组:
  • 若一条记录中有属性值被遗漏了,则将该记录排除在数据挖掘之外
  • 但是,当某类属性的空缺值所占百分比很大时,直接忽略元组会使挖掘性能变得非常差
  2)忽略属性列:
  • 若某个属性的缺失值太多,则在整个数据集中可以忽略该属性
  3)人工填写空缺值:
  • 工作量大,可行性低
  4)使用属性的中心度量值填充空缺值:
  • 如果数据的分布是正常的,就可以使用均值来填充缺失值
  • 如果数据的分布是倾斜的,可以使用中位数来填充缺失值。
在这里插入图片描述
  5)使用一个全局变量填充空缺值:
  • 对一个所有属性的所有缺失值都使用一个固定的值来填补(如“Not sure”或∞)。
  6)使用可能的特征值来替换空缺值(最常用):
  • 生成一个预测模型,来预测每个丢失值
  • 如可以利用回归、贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值

噪声的处理

  –噪声(noise) :被测量的变量产生的随机错误或误差
  • 数据收集工具的问题
  • 数据输入错误
  • 数据传输错误
  • 技术限制
  • 命名规则的不一致
  如何检测噪声数据?
  1)基于统计的技术
  • 使用距离度量值(如马氏距离)来实现。
  • 给定p维数据集中的n个观察值

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/89041
推荐阅读
相关标签