赞
踩
演示使用的SIMCA-P版本是14.1.0
数据集介绍
FOODS.csv
,该数据集是对16个国家对20种食物的消耗情况,部分数据如下(这不是一个分类问题,因此只能做PCA分析,不能做PLS-DA分析):iris.csv
,该数据集就是著名的鸢尾花数据集,鸢尾花有三个亚属,分别是山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。该数据集一共包含4个特征变量,1个类别变量。共有150个样本,iris是鸢尾植物,这里存储了其萼片和花瓣的长宽,共4个属性。部分数据如下(因为可以分为不同类别,所以既可以进行PCA分析,也可以进行PLS-DA分析):导入步骤:这一以导入
FOODS.csv
数据集为例
上面缺失的三个值,可以存在多种填充方式,这里直接填0。另外注意这里可以选择主键,第二主键,如下图:
一般来说主键就像人的身份证号一样,是唯一的,因此我们的csv文件中第一列应该设为从1开始的自然数。第二主键可以不设置,但是建议设置,对于分类问题来说第二主键一定要设置,一般分类变量被设置为第二主键(对于iris.csv
数据集一定要将Species
那一列设置第二主键)。
.usp
文件,点击下图中的Finish
即可保存,选择保存位置即可之后就可以进行PCA分析了。
PCA简介
代谢组小袁
,上面的网址就来自这个公众号。这里使用
FOODS.csv
数据集为例,演示PCA分析过程,iris.csv
也可以进行PCA分析
Edit Model 1
,如下图Observations
和Scale
:为了让最终显示的图显示各个国家,需要对Observations
进行如下设置(弹出的框全部选择OK即可):
关于Scale
,即对数据进行缩放,缩放方式存在多种,如下:
其中最常用的就是UV
和Par
这两种方式,关于缩放方式的介绍如下(中心化即让数据的均值为0,具体操作可以让每个数据减去该特征的均值):
UV
缩放的方式,分析方式选择PCA-X
(理解为PCA即可),然后点击确定即可。Autofit
进行分析即可,如下图:Ovierview
看整个数据的概况,如下图对于结果的分析
Score Scatter Plot
对于该图,横坐标是第一主成分,能够解释原变量30.4%的信息,纵坐标是第二主成分,能够解释原变量21%的信息。
图中距离比较近的国家,饮食习惯的相似性越高,比如Sweden和Denmark,均位于第一象限的右上方,此图应该对照着Loading Scatter Plot一起查看,对应象限一起看,因为Sweden和Denmark位于Score Scatter Plot的第一象限右上方,所以应该查看Loading Scatter Plot的第一象限右上方,我们发现Fro_Fish和Fro_Veg位于此处,这说明Sweden和Denmark这两个国家对于Fro_Fish和Fro_Veg这两种食物消耗比较高,我们查看原始数据发现正是如此,如下图
Loading Scatter Plot
上面也说过,我们应该将该图和Score Scatter Plot一起查看,另外单独解释一下该图的含义。
此图显示了哪些变量对分类的影响大,并且展示了变量之间关系。距离比较近的变量之间是正相关的关系,即一个随着另一个的增加而增加,减少而减少,比如图中的Fro_Fish和Crisp_Bread就是这种关系,画出散点图,如下:
两变量位于原点两侧,并且连线差不多经过原点(即基本位于坐标轴对角线上)的变量之间是反相关的关系,即一个随着另一个的增加而减少,较少而增加,比如图中Garlic和Sweether就是负相关,画出散点图,如下:
两个变量连接原点,两条线的角度越接近90度,相关性越接近于0,如果为90度,则说明两个变量不相关,比如In_Potato和Apples,如下图:
最后想说的一点是,Loading Scatter Plot图中越远离坐标原点的点对分类的影响越大。
DmodX
该图反应了每个样本对PCA模型的适应程度,超过红线说明适应的不好
X/Y Overview [M1]
R2代表解释能力(数学上再现训练集的能力),Q2代表预测能力,均是希望越大越好 ,该图反映了每个自变量对总体解释能力和预测能力的影响,两者最好都在0.5以上;选择保留的主成分数不同,该图的值也不同。
选择几个主成分合适?
上图显示的是综合解释能力和预测能力,而X/Y Overview [M1]这个图显示的是每个变量对解释能力和预测能力的贡献
Loading Column Plot
该图反应了哪些变量对于第一主成分的影响较大,或者说第一主成分很好的解释了哪些变量
Summary
PLS-DA简介
这里使用
iris.csv
数据集为例,演示PLS-DA分析过程,FOODS.csv
不可以进行PLS-DA分析
Edit Model 1
开始讲起:Autofit
进行分析即可;Ovierview
看整个数据的概况,如下图vip
,看哪些变量对分类性能影响最大结果如下:
Permutations
分析,如下图(一般次数设置为200):结果如下:
因为R2 <= 0.3(即截距小于0.3,可以看到截距为-0.0343),Q2 <= 0.05(即截距小于0.05,可以看到截距为-0.0987),右侧越高效果越好,因为右侧的R2和Q2分别代表模型的解释能力和预测能力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。