当前位置:   article > 正文

数据降维的几种常见方法(PCA;FA;LDA;ICA等)_数据降维方法

数据降维方法


数据降维方式简述

        在学习ICA算法的过程中,了解到常常需要对数据进行降维,如PCA,FA等,以达到数据预处理的效果,因此查阅相关资料,在这里对数据降维的几种常见方法进行归纳、梳理。
        数据降维就是降低数据的维度,达到增加样本密度以及去噪的目的。降维方式主要有两种方式:

1、一种是特征选择:直接选取原有维度的一部分参与后续的计算和建模过程,用选择的维度替代所有维度,整个过程不产生新的维度(即从现有的特征里选择较小的一些来达到降维的目的)。

方法:

(1)经验法:根据业务经验选择

(2)测算法:通过不断测试多种维度选择参与计算,通过结果来反复验证和调整并最终找到最佳特征方案

(3)统计分析方法:通过相关性分析不同维度间的线性相关性,在相关性高的维度中进行人工去除或筛选;通过计算不同维度间的互信息,找到具有较高互信息的特征集,然后把其中的一个特征去除或留下

(4)机器学习:通过机器学习算法得到不同特征的特征值或权重,然后再根据权重来选择较大的特征,例用决策树得出不同变量的重要程度。

2、另一种是特征提取:按照一定的数学变换方法,将高维空间的数据点映射到低维空间中,然后利用映射后的变量特征来表示原有的总体特征(即通过组合现有特征来达到降维的目的)。

方法:常用算法有独立成分分析(ICA)主成分分析PCA因子分析FA线性判别分析LDA、局部线性嵌入(LLE)、核主成分分析(Kernel PCA)等

PCA与ICA、FA、LDA的区别与联系

        PCA也叫主元分析,是一种常用的线性降维方式,比如在人脸识别中的“特征脸”(Eigenfaces)。降维之后的每个“新”特征都被称为主成分。这是一种无监督的降维方法,没有用到样本的标记信息。

  • 1.PCA与ICA的联系与区别

相同点:

  1. 都不需要你对源信号的分布做具体的假设; 如果观察到的信号为高斯,那么源信号也为高斯,此时PCA和ICA等价。
  2. 都可以实现数据得降维; PCA是寻找特征值矩阵,ICA是寻找解混矩阵;从线性代数的角度去理解,PCA和ICA都是要找到一组基,这组基张成一个特征空间,数据的处理就都需要映射到新空间中去。

不同点:

  1. 处理数据的类型不同; ICA处理非高斯数据,PCA、FA都是处理高斯数据。
  2. 处理目的不同: ICA提取相互独立的属性,而且降维;PCA只做数据的降维。ICA的数据预处理中会用到PCA
  3. 求解过程不同; ICA 认为观测信号是若干个统计独立的分量的线性组合,ICA要做的是一个解混过程;而PCA是一个信息提取的过程,将原始数据降维,现已成为ICA将数据标准化的预处理步骤;
  4. PCA和ICA的用途完全不同。 如果只在意数据的能量或方差、假设噪声或不感兴趣的信号都比较微弱,那么用PCA就能把主要信号留下来。在某种意义上,ICA更智能——它不在意信号的能量或方差,只看独立性。所以给定的待分析的混合信号经任意的线性变换都不会影响ICA的输出结果,但会严重影响PCA的结果。简而言之:PCA有助于压缩数据,而ICA有助于分离数据

        详见:主成分分析与独立成分分析的区别

  • 2.PCA与LDA的联系与区别

在这里插入图片描述
        详见:PCA与LDA的联系与区别

  • 3.PCA与FA的联系与区别

在这里插入图片描述
在这里插入图片描述

总结

在这里插入图片描述
        

本文参考来源:
https://blog.csdn.net/yingwei13mei/article/details/82690357      机器学习中的降维算法汇总归纳
https://blog.csdn.net/qq_34919792/article/details/104042365      特征转换方法比较(PCA、ICA、LDA)
https://www.cnblogs.com/Determined22/p/6357291.html      特征提取之线性方法(PCA、ICA、LDA)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/145014
推荐阅读
相关标签
  

闽ICP备14008679号