赞
踩
通过学习数学建模老哥的视频
主成分分析法是 可以建立一条或多条关系式 将变量个数尽可能减少,但仍然能(差不多,存在一些误差)表示出这样的关系式。
比如上述图中,分布在y1直线两侧的点可以近似看成 y1直线上一连串的点,这样就实现了降维,(降低维度用1个变量表示2个变量)
多维变成低维(多个变量变成较少的变量)
F1=ax+by(a,b为未知常数)就是其中的一条关系式,F1就是其中的一个主成分,称为第一主成分(方差最大,尽可能包含所有数据关系)若%80以上数据关系能用他表示,则够了。如果少于%80,可以多写第二主成分 F2=cx+dy(c,d为未知常数)。
如果不够,还可以有第3第4......第n主成分,累计方差贡献率大于%80即可,这个值越大越好。越大表示关系越强。
累计方差贡献率:是所有公因子引起的变异占总变异比例。
并且F1已有的信息就不再出现在F2中,主成分之间互不相关,方差依次递减,F1和 F2,F3.......Fn间没有关系,
看到这里你大概明白了什么是主成分分析法,就是用少的变量去表示多个变量间的关系式子。
下面例题和模型大概内容是具体分析如何去求 将多个数据(变量)表示成较少变量的式子,并且分析他们间关系是否联系紧密
数学模型和例题
我们目的是由上图转化成下图上的公式,图一的ABCD...G的变量尽可能的转化为主成分 F1,F2到Fn,n<6(A到G的个数)
上图第一列表示人均GDP ,第二列表示财政收入...为降维前的6个变量,降维后变成F
第一行表示 北京,第二行表示天津,是样本。(x1,x2到xp)不发生变化
模型大致如上,a11......ap1为常系数,是需要我们求的(是协方差后续可以通过SPSS软件求解),x1到xp为样本(北京,天津..辽宁),F1到Fp为 第一主成分到第p主成分,并且要求p<=6(北京到辽宁有6个样本,这样才能实现降维的目的)
在使用主成分分析法前可以进行判断用KMO或者Bartlet’s方法判断是否能够用主成分分析,
KMO要求计算得到的数据>0.5,Bartlett's要求得到数据<0.05,两者满足其中之一都可推荐用主成分分析法。可以自己再查一下这两个方法。不深究。
每个主成分要求所有变量系数的平方和等于1(规则,这样子才能使方差可比较)
这里是采用了归一化的方法,也叫数据的标准化。
标准化方法:
数字特征 | 意义 | 描述 |
E(X) | 数学期望 | 反映XX的平均值 |
D(X) | 方差 | 反映XX与平均值偏离的程度 |
Cov(X,Y) | 协方差 | 等于E((X−E(X))(Y−E(Y)))E((X−E(X))(Y−E(Y))),若为0,则说明XXYY独立 |
ρ或ρXY | 相关系数(就是随机变量标准化后的协方差) |
我们先来了解什么是协方差
关联博客1:深度学习笔记:主成分分析(PCA)(1)——标准化、协方差、相关系数和协方差矩阵_aaronwu2的博客-CSDN博客_主成分分析标准化
关联博客2:(75条消息) 深入理解协方差(图文详解)_暴躁的野生猿的博客-CSDN博客_协方差
大概意思是说有这样的计算公式,(随机变量x-x的均值)*(随机变量y-y的均值),统计多组数据后计算平均值,这样一个值,若值为正,则变化趋势相同,若值为负,变化趋势相反
关联博客3:(75条消息) 什么是协方差,怎么计算?为什么需要协方差?_Nani_xiao的博客-CSDN博客_协方差
var是方差,cov是协方差,他们区别在于分子的第二个括号内的数
协方差矩阵对角线上的元素为每一当前列元素的方差 cov(x,x)=var(x)表示方差
cov(y,x)表示第一列和第二列数据元素(第一维度和第二维度)的协方差矩阵
cov(x,y)表示第二列和第一列数据元素(第一维度和第二维度)的协方差矩阵
cov(y,x)=cov(x,y)从公式和定义上看他们值是相等的
关联博客4:数据降维:主成分分析法(PCA)_离陌lm的博客-CSDN博客_主成分分析降维
2.步骤详解
2.1 获取数据
假设现有一组数据,有m条数据,每条数据都有n个评价指标,构成了m*n的原始数据矩阵,即为X,每个变量对应的数据记为X1,X2,X3......Xn。
2.2 数据中心化 (标准化)
不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
在这里我们采用零均值法(z-score)对数据进行处理,得到均值为0,标准差为1的服从标准正态分布的数据。
其中,表示第j个指标的样本均值,
表示第j个指标的标准差,仍记中心化后数据矩阵为X。
2.3 求协方差矩阵
对中心化后数据求其协方差矩阵,记为R,则
或者另一种方法:
2.4计算协方差矩阵的特征值和特征向量
通过求协方差矩阵的特征方程:
解得其特征值有
对应的特征向量依次为:
2.5 确定主成分个数
设定一个贡献率阈值,即前p个主成分特征值的累计贡献率高于该值时即可认为这p个主成分可以表示原来n个变量,一般取0.8,0.85,0.9,0.95,0.99等。
2.6 计算主成分
在得到了主成分个数后,就可以利用前p个特征值对应的特征向量对主成分(降维后的数据)进行计算。
看了那么多资料不知道你们还没有
我总结一下就是 上图的贝塔(或者说x的系数a)的值是协方差矩阵的特征值向量,
我们可以用过科学计算软件SPSS来计算,这样的数据图,首先将他们输入到表格中,将他们标准化(归一化)
然后得到以下标准化的数据(右边)
降维度
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。