当前位置:   article > 正文

主成分分析(PCA)原理详解_pca原理

pca原理

一.背景引入与预备知识

问题引入:假设一组样本只有两个特征(x1,x2),对样本进行各轴投影,计算对应方差可知数据在水平和垂直方向上的离散度。但是数据在对角方向也明显呈现一种规律,那么如何描述数据呈对角线分布的特点?如果需要用投影信息表示样本分布信息,那应该用X1还是X2轴表示?

鉴于上述原因,我们旋转坐标系来尽可能描述数据潜在的性质,新坐标系如下所示

旋转重构的新坐标系的满足下列性质:

1. 最近重构性:样本到这个超平面的距离都足够近

2. 最大可分性:样本点到这个超平面上的投影能尽可能分开

最重要的一点是,用重构后的坐标系视角观察数据,原本呈正相关的数据不再相关。我们无需再考虑对角方向的数据特性。

预备知识1:关于坐标轴乘以正交矩阵为什么会发生旋转的解答

预备知识2:拉格朗日乘子法用于求解受约束的函数解

上述表达式为求解在g(x)=0的条件下求解f(x)函数的最小值,经拉格朗日乘子法转化问题等价于求解L(x,λ)函数的最小值

 预备知识3:协方差矩阵的获取方式

对于一个只有两个特征,且各特征均值为0的样本,他们的协方差矩阵如下方式计算

Var:方差           Cov:协方差

二.PCA核心原理

PCA:一种通过矩阵乘法运算,把原来的矩阵维度减少的降维技术

经过上节讨论我们得知经坐标系旋转变换后,样本在Y2方向上数据投影明显更离散,而Y1方向上的数据投影更加密集。

为了进一步描述问题,我们引入信息论里的内容:信息来源于未知。不同样本的同一维度的值差异特别大,那该维度的信息量就是极大的。也就是说某维度的方差越大,它的信息量越大。这样,我们就可以下定一个结论:样本的信息集中表现于Y2轴,而Y1上的信息较少可以忽略。这样我们通过舍弃Y1轴,将Y2轴数据投影保留即可实现数据降维。

当数据不止两个维度特征时我们需要一个更加明确的降维目标,这里先给出相应答案

 三.PCA实现步骤

 中心化步骤作用:将x1,x2轴直角顶点平移到Y1,Y2轴直角顶点

投影变换的作用:将经过中心化后的x1,x2轴旋转得到Y1,Y2轴

目标函数如上设定的原因

1.第一步中心化我们得到了一个在各特征上均值为0,方差为1的样本数据

2.U^{T}X可视为旋转后的Y轴。由预备知识3知,目标函数为求解Y轴的协方差矩阵最大值。在理想情况下不同特征实际不相关协方差为0,协方差矩阵对角线上实际是各特征的方差。求解最大值即尽可能保留投影轴上的信息,减少像原坐标系上未被利用的数据正相关信息。我们希望各特征方差尽可能越大,以便我们选择方差最大的几个特征值。

 四.PCA后续问题讨论

        经过第三节讨论我们知道了求解\frac{1}{M}XX^{T}的特征值和特征向量就能使旋转后的各坐标轴保留最大方差信息。那么这些特征值和特征向量实际意义是什么?

       设原坐标基为单位正交基,则单位正交矩阵U与原坐标基乘积意义为使其旋转。目标函数旨在找到一个U使得数据X在经U旋转后的坐标轴上的投影最大:即将数据视作向量,数据在经旋转后的坐标基上的投影为U^{T}X,因此U^{^{T}}XX^{^{T}}U含义为数据在旋转后的坐标轴投影的平方和

对应的特征向量为旋转后的坐标轴向量

等有时间后续会补充PCA与SVD关系以及相应代码实战。。。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/868719
推荐阅读
相关标签
  

闽ICP备14008679号