赞
踩
基本概念:主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化。
数据降维及其作用:
降维是将高维度的数据(指标太多)保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。
在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
降维优点:
使得数据集更易使用;
降低算法的计算开销;
去除噪声;
使得结果容易理解
严谨的数学符号:
PCA的计算步骤:
因子分析由斯皮尔曼在1904年首次提出,其在某种程度上可以被看成是主成分分析的推广和扩展。
因子分析法通过研究变量间的相关系数矩阵,把这些变量间错综复杂的关系归结成少数几个综合因子,由于归结出的因子个数少于原始变量的个数,但是它们又包含原始变量的信息,所以,这一分析过程也称为降维。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。
因子分析:统计:
统计
•单变量描述:输出参与分析的每个原始变量的均值、标准差和有效取值个数。
•初始解:输出未经过旋转直接计算得到的初始公因子、初始特征值和初始方差贡献率等信息。
相关性矩阵
•系数:输出初始分析变量间的相关系数矩阵。
•显著性水平:输出每个相关系数对于单侧假设检验的显著性水平。
•决定因子:输出相关系数矩阵的行列式。
•逆:输出相关系数的逆矩阵。
•再生:输出因子分析后的相关矩阵,还给出原始相关与再生相关之间的差值,即残差。
•反映像:输出反映像相关矩阵,包括偏相关系数的负数。
• KMO检验和巴特利特球形检验:进行因子分析前要对数据进行KMO检验和巴特利特球形检验。
确定因子的数目:
碎石检验(scree test)是根据碎石图来决定因素数的方法。Kaiser提出,可通过直接观察特征值的变化来决定因素数。当某个特征值较前一特征值的值出现较大的下降,而这个特征值较小,其后面的特征值变化不大,说明添加相应于该特征值的因素只能增加很少的信息,所以前几个特征值就是应抽取的公共因子数。
注意:第一次运行因子分析的结果一般作为参考,下面我们需要根据第一次运行的结果来确定公共因子的个数。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。