赞
踩
网上资料非常多,大部分都是讲先求协方差,协方差怎么求的,但是没有讲为什么要求协方差,为什么要选特征值最大的特征,特征值最大到底代表了什么含义。
简单回忆:
计算协方差到底是选行还是选列呢,记住协方差矩阵是计算不同维度间的协方差,不是两个样本间的,所以我们求协方差的目的就是计算不同纬度之间的相关性,并选出特征值最大的前多少个纬度,把特征值小的纬度去掉,起到一个降维的作用
PCA定义: ,表示特征列X 与 特征列Y之间的相关性。
假设刚开始有一堆如下所示的数据
这堆数据的协方差矩阵就是一个单位矩阵
如果我们想把这样一堆数据变成如下所示,此时协方差矩阵已经变成
从另一个角度来看N个特征向量就是N个标准正交基,而特征值的模则代表矩阵在每个基上的投影长度。特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多。
最大特征值对应的特征向量,总是指向数据最大方差的方向,并由此确定其方位。次特征向量总是正交于最大特征向量
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。