当前位置:   article > 正文

数据分析 数据规约

数据规约

一.概念

"数据规约"(Data Reduction)是指在尽可能保持数据原貌的前提下,最大限度地精简数据集.数据规约又分为2:"属性规约""数值规约"
  • 1

二.属性规约
1.概念:

"属性规约"(Attributes Reduction)是指通过减少数据集中的属性来精简数据集,目的是减少系统资源的消耗并降低无效/错误数据的影响.这相当
于降低表示成向量的数据的维度,因此又称"数据降维".由于不同属性包含了不同的信息量,需要选择舍弃哪些属性才能最小化信息损失.降维方法有2大
类:"特征选择""特征提取"
  • 1
  • 2
  • 3

2.特征选择
(1)概念:

"特征选择"(Feature Selection)是指从原始特征集中选出1组最具统计意义的特征,以降低数据集中的属性数,不会改变原特征空间
  • 1

(2)方法:

"决策树"(Decision Tree)
"分支定界法"(Branch and Bound)
"序列前向选择"(Sequential Forward Selection)
"序列后向选择"(Sequential Backward Selection)
"模拟退火"(Simulated Annealing)
"竞技搜索"(Tabu Search)
"遗传算法"(Genetic Algorithms)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

3.特征提取
(1)概念:

"特征提取"(Feature Extraction)是指将原始特征转换为1组具有明显物理或统计意义的特征,以降低数据集中的属性数.其和特征选择的区别在于
特征提取会通过转换原有特征得到新的特征,因而会改变原特征空间.方法主要包括PCA,LDA,SVD,ICA
  • 1
  • 2

(2)主成分分析:

参见 机器学习.主成分分析 部分
  • 1

(3)线性判别分析:

参见 机器学习.线性判别分析 部分
  • 1

(4)独立成分分析:

"独立成分分析"(Independent Component Analysis;ICA)
  • 1

三.数值规约
1.概念:

"数值规约"(Numerosity Reduction)是指通过减少数据集中的数据量来精简数据集.数值规约方法有2大类:"有参数方法""无参数方法"
  • 1

2.有参数方法
(1)概念:

"有参数方法"是指使用参数模型来近似原数据,最后只需要存储参数
  • 1

(2)方法:

"回归"(Regression)
  "多元回归"(Multivariable Regression)
  "线性回归"(Linear Regression)
"对数线性模型"(Logarithmic Linear Model)用于近似离散属性集中的多维概率分布
  • 1
  • 2
  • 3
  • 4

3.无参数方法
(1)概念:

"无参数方法"是指使用1个较少的数据集来近似原数据,需要存放实际数据
  • 1

(2)方法:

"直方图"(Histogram)使用数据在多个互不相交的子集(称为"分箱"(Bin))中的分布来近似原数据分布
"聚类"(Cluster)将记录分入不同的"簇"(Cluster),再用簇来近似实际数据
"抽样"(Sampling)使用从原数据集中按一定规则抽取的1个子集(称为"样本"(Specimen))来近似原数据集
  • 1
  • 2
  • 3
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/252909
推荐阅读
相关标签
  

闽ICP备14008679号