当前位置:   article > 正文

山东大学软件学院数据仓库数据挖掘期末复习_山东大学软件学院数据仓库挖掘期末

山东大学软件学院数据仓库挖掘期末

文章目录


**数据仓库复习用:

前五个在文档中


6、 数据预处理的主要任务有哪些?每个任务要解决的问题主要有哪些?

	**数据预处理的主要任务**
    数据预处理的主要步骤:
    1.数据清理
    2.数据集成
    3.数据规约
    4.数据变换。

    数据清理通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致来“清理”数据。

    数据集成涉及集成多个数据库、数据立方体或文件。代表同一概念的属性在不同的数据库中可能具有不同的名字,这又导致不一致性和冗余。有些属性可能是由其它属性导出的(例如,年收入)。除数据清理之外,必须采取步骤,避免数据集成时的冗余。通常,在为数据仓库准备数据时,数据清理和集成将作为预处理步骤进行。还可以再次进行数据清理,检测和删去可能由集成导致的冗余。

    数据归约得到数据集的简化表示,它小得多,但能够产生同样的(或几乎同样的)分析结果。数据规约策略包括维归约和数值规约。

    ** 在维规约中,使用数据编码方案,以便得到原始数据的简化或“压缩”表示。例子包括数据压缩技术(例如,小波变换和主成分分析),以及属性子集选择(例如,去掉不相关的属性)和属性构造(例如,从原来的属性集导出更有用的小属性集)。
    **在数值规约中,使用参数模型(例如,回归和对数线性模型)或非参数模型(例如,直方图、聚类、抽样或数据聚集),用较小的表示取代数据。

    回到你的数据,假设你决定使用诸如神经网络、最近邻分类或聚类这样的基于距离的挖掘算法进行你的分析。如果待分析的数据已经规范化,即按比例映射到一个较小的区间(例如,[0.0,1.0]),则这些方法将得到更好的结果。离散化和概念分层产生也可能是有用的,那里属性的原始值被区间或较高层的概念所取代。例如,年龄的原始值可以用较高层的概念(如青年、中年和老年)取代。对于数据挖掘而言,离散化和概念分层产生是强有力的工具,因为它们使得数据的挖掘可以在多个抽象层上进行。规范化、数据离散化和概念分层产生都是某种形式的数据变换。数据变换操作是引导挖掘过程成功的附加的预处理过程。
    上面的分类不是互斥的。例如,冗余数据的删除既是一种数据清理形式,也是一种数据规约形式。
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

数据预处理形式
数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的准确率和效率。
老师屁屁踢:在这里插入图片描述

7 、脏数据主要有哪几种?产生的主要原因是什么?

在这里插入图片描述
在这里插入图片描述

8、缺失值的处理方法有哪些?

  (1)忽略元组:当类标号缺少时通常这样做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。

  (2)人工填写缺失值:一般地说,该方法很费时,并且当数据集很大、缺少很多值时,该方法可能行不通。

  (3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“Unknown”或 –¥)替换。如果缺失的值都用“Unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“Unknown”。因此,尽管该方法简单,但是并不十分可靠。

  (4)使用属性的中心度量(如均值或中位数)填充缺失值:对于正常的(对称的)数据分布而言,可以使用均值,而倾斜数据分布应该使用中位数。例如,假定AllElectronics的顾客的平均收入为$28,000,则使用该值替换income中的缺失值。

  (5)使用与给定元组属同一类的所有样本的属性均值或中位数:例如,如果将顾客按credit_risk分类,则用具有相同信用风险的顾客的平均收入替换income中的缺失值。如果给定类的数据分布是倾斜的,则中位数是更好的选择。

  (6)使用最可能的值填充缺失值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一棵判定树,来预测income的缺失值。

    方法(3)到(6)使数据有偏,填入的值可能不正确。然而,方法(6)是最流行的策略。与其它方法相比,它使用已有数据的大部分信息来推测缺失值。在估计income的缺失值时,通过考虑其它属性的值,有更大的机会保持income和其它属性之间的联系。

    在某些情况下,缺失值并不意味着有错误。理想情况下,每个属性都应当有一个或多个关于空值条件的规则。这些规则可以说明是否允许空值,并且/或者说明这样的空值应当如何处理或转换。
    老师屁屁踢:
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

在这里插入图片描述

9 、什么是噪音数据?产生的原因有哪些?

老师屁屁踢:
在这里插入图片描述

10、噪声数据的检测和处理方法有哪些?

在这里插入图片描述
在这里插入图片描述
分箱:分箱方法通过考察数据的“近邻”(即,周围的值)来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。
在这里插入图片描述

    用箱均值光滑:箱中每一个值被箱中的平均值替换。

    用箱中位数平滑:箱中的每一个值被箱中的中位数替换。

    用箱边界平滑:箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。

    一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是个常量。分箱也可以作为一种离散化技术使用,
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

回归:也可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个属性,并且数据拟合到一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。

离群点分析:可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点。
在这里插入图片描述
可以将离群点看作落在簇集合之外的值来检测
在这里插入图片描述
在这里插入图片描述

许多数据光滑的方法也用于数据离散化(一种数据变换方式)和数据归约。例如,上面介绍的分箱技术减少了每个属性的不同值的数量。对于基于逻辑的数据挖掘方法(决策树归纳),这充当了一种形式的数据归约。概念分层是一种数据离散化形式,也可以用于数据平滑。例如,price的概念分层可以把实际的price的值映射到inexpensive、moderately_priced和expensive,从而减少了挖掘过程需要处理的值的数量。

11、 什么叫数据集成?数据集成解决的主要问题有哪些?

数据集成: 合并多个数据源中的数据,存入一个一致的数据存储中
在这里插入图片描述
在这里插入图片描述
实体识别问题
模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”?这涉及实体识别问题。例如,数据分析者或计算机如何才能确信一个数据库中的customer_id和另一个数据库中的cust_number指的是同一实体?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或NULL值的空值规则。通常,数据库和数据仓库有元数据——关于数据的数据。这种元数据可以帮助避免模式集成的错误。元数据还可以用来帮助变换数据。

在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。

冗余和相关分析
冗余是数据集成的另一个重要问题。一个属性(例如,年收入)如果它能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致数据集中的冗余。

有些冗余可以被相关分析检测到。例如,给定两个属性,根据可用的数据,这种分析可以度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用卡方检验。对于数值属性,我们使用相关系数和协方差,它们都评估一个属性的值如何随另一个变化。

元组重复
除了检测属性间的冗余外,还应当在元组级检测重复(例如,对于给定的唯一数据实体,存在两个或多个相同的元组)。

数据值冲突的检测与处理
数据集成还涉及数据值冲突的检测与处理。例如,对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是因为表示、尺度或编码不同。例如,重量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。

属性也可能在不同的抽象层,其中属性在一个系统中记录的抽象层可能比另一个系统中“相同的“属性低。

12 、什么叫数据归约?主要有哪几类归约问题?

数据规约策略包括维归约、数量规约和数据压缩
在这里插入图片描述

13、 维度归约有哪两类技术?有什么区别?
在这里插入图片描述

14 、什么是数据离散化和概念分层?

在这里插入图片描述
在这里插入图片描述

15、 数据规范化/标准化的方法有哪些?形式,有什么作用?

在这里插入图片描述
在我们的讨论中,令A是数值属性,具有n个观测值v1,v2,…,vn。

    最小-最大规范化对原始数据进行线性变换。假定和分别为属性A的最小和最大值。最小-最大规范化通过计算把A的值vi映射到区间[,]中的vi’。
  • 1

在这里插入图片描述

    最小-最大规范化保持原始数据值之间的联系。如果今后的输入实例落在A的原数据值域之外,则该方法将面临“越界”错误。

    在z分数规范化(或零-均值规范化)中,基于A的平均值和标准差规范化。A的值vi被规范化为vi’,由下式计算:
  • 1
  • 2
  • 3

在这里插入图片描述

    当属性A的实际最大和最小值未知,或离群点左右了最小-最大规范化时,该方法是有用的。

    小数定标规范化通过移动属性A的值的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。A的值vi被规范化为vi’,由下式计算:
  • 1
  • 2
  • 3

在这里插入图片描述

其中,j是使得Max(|v’|) < 1的最小整数。
在这里插入图片描述

16 、数据仓库的主要特征是什么,对每一特征给予简要解释

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

17、 数据仓库的作用

数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持

18 、典型的数据仓库体系结构,各层简要说明

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

19、数据库与数据仓库系统在设计上的差别

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

20、数据仓库设计的过程有哪些

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

21、模型设计(概念——逻辑;星型模型;粒度选择)

看屁屁踢
在这里插入图片描述

22、ETL的内容

在这里插入图片描述
ETL是数据从业务系统抽取转化到数据仓库的过程,包括4个子过程:数据抽取、数据转换、数据清洗、数据装载

作用:解决数据分散问题 、 解决数据不清洁问题 、方便企业各部门构筑数据集市
在这里插入图片描述

23、 写出至少五种OLAP的操作,并说明每种的具体内容

在这里插入图片描述

上卷 (drill-up,roll up): 概括数据
通过沿一个维的概念分层向上攀升或者通过维归约,对数据立方进行聚集
下钻 (Drill down ,roll down): 上卷的逆操作
从高层概括到底层概括,从不太详细到更加详细的数据
给数据添加更多细节,添加新的维到立方体来实现
在这里插入图片描述

**切片和切块(Slice and dice)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/252887
推荐阅读
相关标签