当前位置:   article > 正文

浅显易懂的PCA(主成分分析),没有繁杂的矩阵公式_pca 主成分占比

pca 主成分占比

第一步

给出一个二维数据:
在这里插入图片描述
通过计算各点到轴的平均长度,定位原点,下图中,蓝色的X既是后面要用到的原点。
在这里插入图片描述

第二步,寻找拟合线

在原点处随意绘制一条直线,然后计算各点投影到该线上的距离的平方和,然后不断旋转该线,直至投影的平方和最大为止,如图,d1,d2分别是投影后的距离长度。此处把这条拟合线称为PC1。
在这里插入图片描述

第三步,通过PC1的斜率来计算特征向量和特征值

在PC1上单位化后的向量就称为特征向量,如下图,PC1的斜率为0.25,即黑色的41两个向量可以组成PC1上的向量,那也就意味着数据大部分是沿着Gene1(X轴)分布的,由勾股定理可得其向量的模(即长度)为4.12,将三个向量(黑色的41和组合向量)分别除以4.12,那么就有X轴上的向量模为0.97,Y轴上的模为0.242,特征向量就是由0.97个Gene1和0.24个Gene2组合而成。特征值就是投影平方的距离和,就是上面所说的d1+…d6。
在这里插入图片描述

第四步,求得PC2,再结合PC1求得主成分(三维就要求PC1,PC2,PC3,以此类推)

下图蓝色的线即为PC2,注意,除了PC1的角度可以随意初始化外,其他的拟合线都要垂直于之前的拟合线,在此处就是PC2要垂直于PC1。由PC2得知,PC2的特征向量由0.97个Gene2和-0.242个Gene1组成,特征向量也是各点到PC2投影的平方和。
在这里插入图片描述

求得差异值,找出最能代表数据的一条或多条拟合线

这一步需要将数据重新画在PC1和PC2上。
在这里插入图片描述
差异值就是特征值/(样本值-1)。假设此处PC1的差异值为15,PC2的差异值为3,那么PC总差异为18,就有PC1占总差异的83%,PC2占总差异的17%。
在这里插入图片描述

了解二维相关术语和公式的讲解后,就可以进行三维的PCA了,不要跳着看,要理解之前的知识

直接上图,下图的各PC的差异值占总差异的比例如下所示,PC1和PC2的差异值占总差异的94%,那就代表这两条线组成的二维平面就可以解释数据94%的差异。在这里插入图片描述
在这里插入图片描述
通过各数据点在PC1和PC2的投影可以绘得一个二维平面,即降低了数据的维数,有很好的表示了数值之间的差异性(这就是使用PCA会造成一部分数据丢失的原因,因为他的工作是舍去信息中差异性最小的部分)
在这里插入图片描述
在这里插入图片描述
这仅是我学习后的一些见解,想要具体的了解该知识的来源,你们可以去B站看这个视频,我把链接贴在这https://www.bilibili.com/video/BV1C7411A7bj?from=search&seid=11673028245784609430
睡觉睡觉,狗命要紧

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/94056
推荐阅读
相关标签
  

闽ICP备14008679号