当前位置:   article > 正文

主成分分析(PCA)

主成分分析

引言

说到统计方法,往往离不开样本特征

样本特征有不同的表现值,对样本标签有着或多或少的影响

当样本特征过多时,不同重要的特征杂糅,对我们的计算多少会造成阻碍

于是我们希望在降低特征数量的同时,筛选出优秀的特征

这也就是找出贡献最大的几个主成分特征,这种方法称为主成分分析

一、基本概念

1.1降维

选取最重要的特征,也就是抛弃相对不重要的特征,此时样本的数据维度便降低下来;主成分分析是一个降维的过程

1.2方差与相关系数

我们该如何评价某一个特征是否是好的特征呢?

比较简明的方法,通过方差来判断。

我们看一下方差的概念var(X)=\sigma ^2=\frac{1}{n}\sum _{i=1}^{n}(x_i-\overline{x_i})^2

方差衡量的是样本偏离样本均值的程度;方差越大,样本分布越散;方差越小,样本分布越集中。

方差大的分散度显然大于方差小的(注意横坐标

我们可以认为,一个特征下的样本方差大,说明这个特征对样本的区分度大,因为样本之间的差异会更大一些;相反,如果一个特征的方差小,在这个特征下的样本趋于一个点,说明这个特征的区分度不大。

另外,特征和特征之间也会有或多或少的联系,这体现在一个特征的数值的变化对另一个特征数值的变化的趋势上。

比如一个人的身高体重,一个身高高的人,体重往往也会更大。而相比于身高和考试分数而言,二者的想相关性就远不及身高和体重。

我们定义两个特征的协方差cov(X,Y)=\frac{1}{n}\sum _{i=1}^{n}(x_i-\overline{x_i})(y_i-\overline{y_i})

cov(X,X)=var(X)

协方差会受到样本分布的影响,我们常用相关系数衡量两个特征之间的关系

corr(X,Y)=\frac{1}{n}\sum _{i=1}^{n}\frac{(x_i-\overline{x_i})(y_i-\overline{y_i})}{\sqrt{var(X)} \sqrt{var(Y)}}

X,Y呈线性关系时,二者的相关系数为1(比如Y=3*X

1.3矩阵形式的相关性表达

当我们比较多个特征之间的想关性时,我们习惯用协方差矩阵\sum来表达

矩阵的下角标数值对应相应特征的协方差(\sum_{2,3}代表第二个特征和第三个特征的协方差

而矩阵的对角便是样本特征的方差

样本矩阵X\sum =\frac{1}{n-1}(X-\overline{X})^T(X-\overline{X}),其中\overline{X}是样本X行向量均值,就是样本均值

X=\begin{bmatrix} 1 & 3\\ 5 &4 \\ 2& 3 \end{bmatrix},其协方差矩阵\sum _{22}=\begin{bmatrix} 4.3 &1.1 \\ 1.1& 0.3 \end{bmatrix}

二、主成分分析

2.1特征降维

还记得我们的线性回归

我们线性回归中要求X^TX是可逆的,这便需要样本矩阵

X=\begin{bmatrix} X_1\\ X_2 \\ ... \\X_n \end{bmatrix}=\begin{bmatrix} x_{11} & x_{12} &... & x_{1m}\\ x_{21} &x_{22} & ... & x_{2m}\\ ... &... & ...& \\ x_{n1}& x_{n2} & ... & x_{nm} \end{bmatrix}

列满秩;但是当样本的特征多起来之后,甚至特征数m大于样本数n,此时X^TX不可逆

于是乎,我们希望减少特征的维度,寻找更优的特征

优秀的特征方差更大,同时和其他特征的相关性更小

我们把m维的特征降低到t维,使得样本矩阵X_{nm}变化为X^{'}_{nt},这需要右乘矩阵T_{mt}

我们希望新样本矩阵X^{'}_{nt}方差大而协方差小

2.2主成分

最理想的情况就是协方差矩阵\sum =\frac{1}{n-1}(X-\overline{X})^T(X-\overline{X})对角线最大,而其他位置为0

这也就是协方差矩阵\sum=X^TX的相似对角化

显然,该矩阵是实对称矩阵,也就存在正交矩阵A使得A^T\sum A=\Lambda,其中\Lambda是对角矩阵

为了规范,我们将\Lambda对角元素从大到小排列,\Lambda =\begin{bmatrix} \lambda_1 &0 & ... & 0\\ 0 & \lambda_2 &... &0 \\ ...& ... & ... & 0\\ 0& 0 & 0& \lambda_m \end{bmatrix}

\lambda_1,\lambda_2,...,\lambda_m便是矩阵\summ个特征值了

而矩阵A是矩阵\sum特征值对应的特征向量的组合,他是正交的,为了规范我们将A写为单位正交阵

矩阵\Lambda可以理解为做特征变换后新的协方差矩阵,这里的特征变换是将原有特征进行线性组合形成新的特征(比如身高、体重变换为0.2身高+0.8体重,0.8身高+0.2体重)

经过线性变换后的矩阵\Lambda有着大方差和小协方差的优良特性

我们取方差最大的t个新特征讨论,这t个特征称为t主成分,右乘的矩阵T_{mt}便是前t个特征向量的组合

降维后的矩阵具有如下结构,对角线从大到小依次排列,其他地方为0

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号