赞
踩
给出一个二维数据:
通过计算各点到轴的平均长度,定位原点,下图中,蓝色的X既是后面要用到的原点。
在原点处随意绘制一条直线,然后计算各点投影到该线上的距离的平方和,然后不断旋转该线,直至投影的平方和最大为止,如图,d1,d2分别是投影后的距离长度。此处把这条拟合线称为PC1。
在PC1上单位化后的向量就称为特征向量,如下图,PC1的斜率为0.25,即黑色的4和1两个向量可以组成PC1上的向量,那也就意味着数据大部分是沿着Gene1(X轴)分布的,由勾股定理可得其向量的模(即长度)为4.12,将三个向量(黑色的4、1和组合向量)分别除以4.12,那么就有X轴上的向量模为0.97,Y轴上的模为0.242,特征向量就是由0.97个Gene1和0.24个Gene2组合而成。特征值就是投影平方的距离和,就是上面所说的d1+…d6。
下图蓝色的线即为PC2,注意,除了PC1的角度可以随意初始化外,其他的拟合线都要垂直于之前的拟合线,在此处就是PC2要垂直于PC1。由PC2得知,PC2的特征向量由0.97个Gene2和-0.242个Gene1组成,特征向量也是各点到PC2投影的平方和。
这一步需要将数据重新画在PC1和PC2上。
差异值就是特征值/(样本值-1)。假设此处PC1的差异值为15,PC2的差异值为3,那么PC总差异为18,就有PC1占总差异的83%,PC2占总差异的17%。
直接上图,下图的各PC的差异值占总差异的比例如下所示,PC1和PC2的差异值占总差异的94%,那就代表这两条线组成的二维平面就可以解释数据94%的差异。
通过各数据点在PC1和PC2的投影可以绘得一个二维平面,即降低了数据的维数,有很好的表示了数值之间的差异性(这就是使用PCA会造成一部分数据丢失的原因,因为他的工作是舍去信息中差异性最小的部分)
这仅是我学习后的一些见解,想要具体的了解该知识的来源,你们可以去B站看这个视频,我把链接贴在这https://www.bilibili.com/video/BV1C7411A7bj?from=search&seid=11673028245784609430
睡觉睡觉,狗命要紧
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。