赞
踩
说到统计方法,往往离不开样本特征
样本特征有不同的表现值,对样本标签有着或多或少的影响
当样本特征过多时,不同重要的特征杂糅,对我们的计算多少会造成阻碍
于是我们希望在降低特征数量的同时,筛选出优秀的特征
这也就是找出贡献最大的几个主成分特征,这种方法称为主成分分析
选取最重要的特征,也就是抛弃相对不重要的特征,此时样本的数据维度便降低下来;主成分分析是一个降维的过程
我们该如何评价某一个特征是否是好的特征呢?
比较简明的方法,通过方差来判断。
我们看一下方差的概念
方差衡量的是样本偏离样本均值的程度;方差越大,样本分布越散;方差越小,样本分布越集中。
方差大的分散度显然大于方差小的(注意横坐标
我们可以认为,一个特征下的样本方差大,说明这个特征对样本的区分度大,因为样本之间的差异会更大一些;相反,如果一个特征的方差小,在这个特征下的样本趋于一个点,说明这个特征的区分度不大。
另外,特征和特征之间也会有或多或少的联系,这体现在一个特征的数值的变化对另一个特征数值的变化的趋势上。
比如一个人的身高体重,一个身高高的人,体重往往也会更大。而相比于身高和考试分数而言,二者的想相关性就远不及身高和体重。
我们定义两个特征的协方差
协方差会受到样本分布的影响,我们常用相关系数衡量两个特征之间的关系
当呈线性关系时,二者的相关系数为1(比如)
矩阵的下角标数值对应相应特征的协方差(代表第二个特征和第三个特征的协方差
而矩阵的对角便是样本特征的方差
样本矩阵,,其中是样本行向量均值,就是样本均值
当,其协方差矩阵
还记得我们的线性回归吗
我们线性回归中要求是可逆的,这便需要样本矩阵
列满秩;但是当样本的特征多起来之后,甚至特征数大于样本数,此时不可逆
于是乎,我们希望减少特征的维度,寻找更优的特征
优秀的特征方差更大,同时和其他特征的相关性更小
我们把维的特征降低到维,使得样本矩阵变化为,这需要右乘矩阵
我们希望新样本矩阵方差大而协方差小
最理想的情况就是协方差矩阵对角线最大,而其他位置为0
这也就是协方差矩阵的相似对角化
显然,该矩阵是实对称矩阵,也就存在正交矩阵使得,其中是对角矩阵
为了规范,我们将对角元素从大到小排列,
便是矩阵的个特征值了
而矩阵是矩阵特征值对应的特征向量的组合,他是正交的,为了规范我们将写为单位正交阵
矩阵可以理解为做特征变换后新的协方差矩阵,这里的特征变换是将原有特征进行线性组合形成新的特征(比如身高、体重变换为0.2身高+0.8体重,0.8身高+0.2体重)
经过线性变换后的矩阵有着大方差和小协方差的优良特性
我们取方差最大的个新特征讨论,这个特征称为主成分,右乘的矩阵便是前个特征向量的组合
降维后的矩阵具有如下结构,对角线从大到小依次排列,其他地方为0
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。