赞
踩
一.概念
"数据规约"(Data Reduction)是指在尽可能保持数据原貌的前提下,最大限度地精简数据集.数据规约又分为2类:"属性规约"和"数值规约"
二.属性规约
1.概念:
"属性规约"(Attributes Reduction)是指通过减少数据集中的属性来精简数据集,目的是减少系统资源的消耗并降低无效/错误数据的影响.这相当
于降低表示成向量的数据的维度,因此又称"数据降维".由于不同属性包含了不同的信息量,需要选择舍弃哪些属性才能最小化信息损失.降维方法有2大
类:"特征选择"和"特征提取"
2.特征选择
(1)概念:
"特征选择"(Feature Selection)是指从原始特征集中选出1组最具统计意义的特征,以降低数据集中的属性数,不会改变原特征空间
(2)方法:
"决策树"(Decision Tree)
"分支定界法"(Branch and Bound)
"序列前向选择"(Sequential Forward Selection)
"序列后向选择"(Sequential Backward Selection)
"模拟退火"(Simulated Annealing)
"竞技搜索"(Tabu Search)
"遗传算法"(Genetic Algorithms)
3.特征提取
(1)概念:
"特征提取"(Feature Extraction)是指将原始特征转换为1组具有明显物理或统计意义的特征,以降低数据集中的属性数.其和特征选择的区别在于
特征提取会通过转换原有特征得到新的特征,因而会改变原特征空间.方法主要包括PCA,LDA,SVD,ICA
(2)主成分分析:
参见 机器学习.主成分分析 部分
(3)线性判别分析:
参见 机器学习.线性判别分析 部分
(4)独立成分分析:
"独立成分分析"(Independent Component Analysis;ICA)
三.数值规约
1.概念:
"数值规约"(Numerosity Reduction)是指通过减少数据集中的数据量来精简数据集.数值规约方法有2大类:"有参数方法"和"无参数方法"
2.有参数方法
(1)概念:
"有参数方法"是指使用参数模型来近似原数据,最后只需要存储参数
(2)方法:
"回归"(Regression)
"多元回归"(Multivariable Regression)
"线性回归"(Linear Regression)
"对数线性模型"(Logarithmic Linear Model)用于近似离散属性集中的多维概率分布
3.无参数方法
(1)概念:
"无参数方法"是指使用1个较少的数据集来近似原数据,需要存放实际数据
(2)方法:
"直方图"(Histogram)使用数据在多个互不相交的子集(称为"分箱"(Bin))中的分布来近似原数据分布
"聚类"(Cluster)将记录分入不同的"簇"(Cluster),再用簇来近似实际数据
"抽样"(Sampling)使用从原数据集中按一定规则抽取的1个子集(称为"样本"(Specimen))来近似原数据集
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。