PAC—主成分分析方法_主成分分析法 pac

作者：从前慢现在也慢 | 2024-07-23 06:48:02

踩

主成分分析法 pac

一.PAC方法引入与介绍

（1）PAC 引入

如图1所示：

图1.PAC 方法简介

（2）PAC 基本思想

如图2所示：

图2.PAC 方法基本思想

（3）PAC 求解步骤

【1】原始数据标准化处理
【2】计算样本相关系数矩阵
【3】计算相关系数矩阵 R的特征值和相应的特征向量
【4】选择主成分
【5】计算主成分得分
【6】依据主成分得分对问题分析与建模

图3.PAC 方法详细步骤

（4）PAC 方法的作用与利弊

如图4所示：

图4.PAC 方法的优与劣

二.PAC方法求解实例

（1）案例问题

如图5所示：

图5.问题背景与数据

（2）求解代码

如下所示：

%== PCA stepping demonstration program==%

% Read data from a file (e.g. excel) and place it in a matrix.
A=xlsread('Coporation_evaluation.xlsx', 'B2:I16');

% Transfer orginal data to standard data
a=size(A,1);   % Get the row number of A
b=size(A,2);   % Get the column number of A
for i=1:b
    SA(:,i)=(A(:,i)-mean(A(:,i)))/std(A(:,i));  % Matrix normalization
end

% Calculate correlation matrix of A.
CM=corrcoef(SA);

% Calculate eigenvectors and eigenvalues of correlation matrix.
[V, D]=eig(CM);

% Get the eigenvalue sequence according to descending and the corrosponding
% attribution rates and accumulation rates.
for j=1:b
    DS(j,1)=D(b+1-j, b+1-j);
end
for i=1:b
    DS(i,2)=DS(i,1)/sum(DS(:,1));
    DS(i,3)=sum(DS(1:i,1))/sum(DS(:,1));
end         

% Calculate the numvber of principal components.
T=0.9;  % set the threshold value for evaluating information preservation level.
for K=1:b
    if DS(K,3)>=T
        Com_num=K;
        break;
    end
end

% Get the eigenvectors of the Com_num principal components
for j=1:Com_num
    PV(:,j)=V(:,b+1-j);
end

% Calculate the new socres of the orginal items
new_score=SA*PV;

for i=1:a
    total_score(i,2)=sum(new_score(i,:));
    total_score(i,1)=i;
end
new_score_s=sortrows(total_score,-2);

% Displays result reports
disp('特征值及贡献率：')
DS
disp('阀值T对应的主成分数与特征向量：')
Com_num
PV
disp('主成分分数：')
new_score
disp('主成分分数排序：')
new_score_s
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61

三.PAC方法总结

（1）详细讲述步骤：

【1】由于原始数据的数量级（量纲）常常不同，所以我们首先要对不同的变量类型进行标准化，消除量纲的影响。具体就是每个值减去该变量类型均值然后除以该变量类型的标准差。
【2】计算样本相关系数矩阵就直接是按照图6方式求解即可，图3中公式有误。

图6.求协方差

【3】计算相关系数矩阵R的特征值和相应的特征向量。使用函数可直接求得[V,D]。矩阵V是一列列的特征向量，而D是对角矩阵，对角线上的值就是特征值，并且特征值是由小到大排序的（越往右下）。
【4】将特征值由大到小排序，然后计算贡献度和累计贡献度：贡献度=特征值/特征值之和；累计贡献度=从第一行到此行特征值之和/总特征值之和。
【5】设定阈值，选择主成分（特征值和对应的特征向量）。规定阈值T是主成分需要累计的贡献度。当累计贡献度大于等于T即完成特征值的选择。
【6】翻转得到主成分包含的特征值对应的特征向量。将标准化矩阵映射到主成分上。计算每一组得分：得分=每一行主成分得分之和。就得到了原始数据在主成分（降维）上的得分。


%读取数据
A=xlsread('Coporation_evaluation.xlsx', 'B2:I16');

%获得A的行数和列数
a=size(A,1);   
b=size(A,2);   
for i=1:b
    %A矩阵标准化处理为SA：（每一个值-该列平均值）/该列标准差
    SA(:,i)=(A(:,i)-mean(A(:,i)))/std(A(:,i));  
end

%获得标准化矩阵SA的相关系数矩阵
CM=corrcoef(SA);

%获得相关系数矩阵的特征值D和对应的特征向量V
[V, D]=eig(CM);

%将特征值从大到小排序
for j=1:b
    DS(j,1)=D(b+1-j, b+1-j);
end
for i=1:b
    %计算贡献度（贡献度=特征值/特征值之和）
    DS(i,2)=DS(i,1)/sum(DS(:,1));
    %计算累计贡献度（累计贡献度=从第一行到此行特征值之和/总特征值之和）
    DS(i,3)=sum(DS(1:i,1))/sum(DS(:,1));
end         

%选择主成分（特征值）
T=0.9;  
for K=1:b
    %规定T是主成分需要累计的贡献度
    %当累计贡献度大于等于T即完成特征值的选择（由D(1,1)到D（Com_num,1））
    if DS(K,3)>=T
        Com_num=K;
        break;
    end
end

%因为之前将特征值反转（从函数返回的默认从小到大返回为从大到小），而每个特征值对应的特征向量也应该是“逆对应”关系
%获得主成分特征值对应的特征向量（特征值由1到Com_num,特征向量由到倒数第一到倒数第Com_num）
for j=1:Com_num
    PV(:,j)=V(:,b+1-j);
end

%将标准化矩阵映射到主成分上（降维）获得主成分得分矩阵(标准化消除量纲+主成分映射降维)new_score
new_score=SA*PV;

%计算得分
for i=1:a
    %得分=每一行主成分得分之和
    total_score(i,2)=sum(new_score(i,:));
    %设置序号
    total_score(i,1)=i;
end
%按照第二列进行排序。负整数表示排序顺序为降序。
new_score_s=sortrows(total_score,-2);

disp('特征值及贡献率：')
DS
disp('阀值T对应的主成分数与特征向量：')
Com_num
PV
disp('主成分分数：')
new_score
disp('主成分分数排序：')
new_score_s
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68

（2）意义分析：

【1】PCA主成分分析方法：
针对于：多个变量存在一定相关性时；
适用于：变量个数较多或者变量之间存在复杂的关系时；
作用是：消除评价指标间的相关影响（如果互相有关联关系，则都评价肯定是不合理不客观不公正的，关联性越强越不合理PAC作用越强）。可减少指标选择工作量（减少指标个数）。
【2】案例作用分析：
企业的各个评价指标之间明显是有关联的。所以直接标准化然后计算得分是不合理的。主成分分析法就提取出互不相关的变量（维度），然后标准化数据进行映射，提取出主成分来评价。作用：（主要）是消除了指标之间的相关影响，（次要）是减少了变量个数减少了计算。

四.函数解释和参考文案

（1）函数解释：

【1】std(A)：求向量A的标准差。
【2】mean(A)：求矩阵A的平均值。
【3】corrcoef(A)：求矩阵A的相关系数矩阵。
【4】eig(A)=[V,D]：求矩阵A的全部特征值，构成对角阵D，并求A的特征向量构成V的列向量。
【5】 sortrows (X, COL)：按指定列COL由小到大进行排序。若COL为负数表示按照降序排列。

（2）参考文案：

对角矩阵
 知乎-简洁全面PCA方法讲述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/868713?site