赞
踩
一.背景引入与预备知识
问题引入:假设一组样本只有两个特征(x1,x2),对样本进行各轴投影,计算对应方差可知数据在水平和垂直方向上的离散度。但是数据在对角方向也明显呈现一种规律,那么如何描述数据呈对角线分布的特点?如果需要用投影信息表示样本分布信息,那应该用X1还是X2轴表示?
鉴于上述原因,我们旋转坐标系来尽可能描述数据潜在的性质,新坐标系如下所示
旋转重构的新坐标系的满足下列性质:
1. 最近重构性:样本到这个超平面的距离都足够近
2. 最大可分性:样本点到这个超平面上的投影能尽可能分开
最重要的一点是,用重构后的坐标系视角观察数据,原本呈正相关的数据不再相关。我们无需再考虑对角方向的数据特性。
预备知识1:关于坐标轴乘以正交矩阵为什么会发生旋转的解答
预备知识2:拉格朗日乘子法用于求解受约束的函数解
上述表达式为求解在g(x)=0的条件下求解f(x)函数的最小值,经拉格朗日乘子法转化问题等价于求解L(x,λ)函数的最小值
预备知识3:协方差矩阵的获取方式
对于一个只有两个特征,且各特征均值为0的样本,他们的协方差矩阵如下方式计算
Var:方差 Cov:协方差
二.PCA核心原理
PCA:一种通过矩阵乘法运算,把原来的矩阵维度减少的降维技术
经过上节讨论我们得知经坐标系旋转变换后,样本在Y2方向上数据投影明显更离散,而Y1方向上的数据投影更加密集。
为了进一步描述问题,我们引入信息论里的内容:信息来源于未知。不同样本的同一维度的值差异特别大,那该维度的信息量就是极大的。也就是说某维度的方差越大,它的信息量越大。这样,我们就可以下定一个结论:样本的信息集中表现于Y2轴,而Y1上的信息较少可以忽略。这样我们通过舍弃Y1轴,将Y2轴数据投影保留即可实现数据降维。
当数据不止两个维度特征时我们需要一个更加明确的降维目标,这里先给出相应答案
三.PCA实现步骤
中心化步骤作用:将x1,x2轴直角顶点平移到Y1,Y2轴直角顶点
投影变换的作用:将经过中心化后的x1,x2轴旋转得到Y1,Y2轴
目标函数如上设定的原因
1.第一步中心化我们得到了一个在各特征上均值为0,方差为1的样本数据
2.可视为旋转后的Y轴。由预备知识3知,目标函数为求解Y轴的协方差矩阵最大值。在理想情况下不同特征实际不相关协方差为0,协方差矩阵对角线上实际是各特征的方差。求解最大值即尽可能保留投影轴上的信息,减少像原坐标系上未被利用的数据正相关信息。我们希望各特征方差尽可能越大,以便我们选择方差最大的几个特征值。
四.PCA后续问题讨论
经过第三节讨论我们知道了求解的特征值和特征向量就能使旋转后的各坐标轴保留最大方差信息。那么这些特征值和特征向量实际意义是什么?
设原坐标基为单位正交基,则单位正交矩阵U与原坐标基乘积意义为使其旋转。目标函数旨在找到一个U使得数据X在经U旋转后的坐标轴上的投影最大:即将数据视作向量,数据在经旋转后的坐标基上的投影为,因此含义为数据在旋转后的坐标轴投影的平方和
对应的特征向量为旋转后的坐标轴向量
等有时间后续会补充PCA与SVD关系以及相应代码实战。。。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。