当前位置:   article > 正文

机器学习-PCA主成份分析详细解说及代码实现_pca代码实现

pca代码实现

本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com

目录

一. PCA主成分分析思想介绍

1.1 主成份分析思想

1.2 什么是主成份

二. PCA主成分分析的数学描述

2.1 主成份分析的数学表达

2.2 主成份系数矩阵A的约定

2.3 主成份分析需要输出什么

三. PCA的常用场景

3.1 PCA用于降维

3.2 PCA用于排名

3.3 PCA的实际使用

四. PCA总结与补充

4.1 主成份分析是什么

4.2 特别补充说明

五. 代码实现

5.1 调用sklearn包求解PCA

5.2 自写代码求解PCA


PCA主成份分析常用于降维,是一个基础、知名度极高和常用的方法

本文介绍PCA的原理和本质,并介绍相关使用场景的用法

一. PCA主成分分析思想介绍


  本节介绍PCA用于解决什么问题及PCA的思想,初步了解PCA是什么

1.1 主成份分析思想


 主成份分析全称为PCA Principle Component Analysis 
它的主要功能是去除变量之间的信息冗余,常用于降维和排名等问题

  

 变量间的信息冗余
现有样本如下

可以明显看到x1和x2是相关的,它们之间存在信息冗余
 例如知道x1很大,那就知道x2也小不到哪去,这就是信息冗余
 
     主成份分析解决变量相关的思路   
主成份分析是如何解决变量相关的呢?很简单,如下

   PCA的思路就是将坐标轴进行旋转,
让样本在旋转后的坐标轴中各个维度不相关即可
 
也可以用如下的思路,
将样本进行旋转,使旋转后的样本在各维不相关


1.2 什么是主成份


在旋转后,由于各维之间已经没有信息冗余,
每个维度上的方差,就代表该维度携带的信息量

旋转后得到的各个变量是独立地代表样本的某部分信息,
例如,x1的方差为8,x2 的方差为2,
那么可以认为,x1携带了80%的样本信息,x2携带了20%的信息

因此称旋转后得到的各个变量为主成份
并根据方差的大小命名为第一主成份(方差最大)、第二主成份(方差第二大)......
 主成份分析即分析样本信息的各个独立部分、主要信息部分


✍️补充
 为什么说维度的方差代表包含样本的信息量?
数据点在每个维度的波动幅度有大有小,
波动较小的,则说明各个样本在该维度区别不大,可以忽略
最极致的时候,方差为0,所有样本在该维度完全一样,该维度对样本完全没有区分度
波动较大的,则说明各个样本在该维度差异较大,是区别样本与样本的主要凭据


二. PCA主成分分析的数学描述


本节从数学角度进一步讲解主成份分析PCA是什么

2.1 主成份分析的数学表达


旋转变换在数学中可以用一个标准正交矩阵A表示,
样本原坐标为x,通过A旋转后的坐标就为xA
 主成份分析就是找到一个标准正交矩阵A,
将所有样本X进行旋转,使旋转后的样本XA每列不相关
 用数学表示,也即找到一个A,使得
\text{Cov}(XA)=\Lambda
 其中A为标准正交矩阵  
   Λ代表对角矩阵 


2.2 主成份系数矩阵A的约定


可以看到,主成份分析通过A,
实际把原来的n个变量重新线性组合成了新的n个变量
[x_1,x_2,...,x_n]*\begin{bmatrix} a_{11}&a_{12} & \dots & a_{1n}\\ a_{21}&a_{22} & \dots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots \\ a_{n1}&a_{n2} & \dots & a_{nn} \end{bmatrix}=\left\{\begin{matrix} a_{11}x_1+ a_{21}x_2+...+ a_{n1}x_n=x'_1\\ a_{12}x_1+ a_{22}x_2+...+ a_{n2}x_n=x'_2\\ ...\\ a_{1n}x_1+ a_{2n}x_2+...+ a_{nn}x_n=x'_n \end{matrix}\right.

 其中,A的第 i 列[a_{1i},a_{2i},...,a_{ni}]^T就是主成份x'_i的系数
 
为了方便起见,约定A的第i列存放第i个主成份的系数,
 即如下

这样x经过A的转换后,得到的变量就依次是第一主成份、第二主成份...


2.3 主成份分析需要输出什么


​主成份的主要输出有

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/127190
推荐阅读
相关标签