赞
踩
引言:特征提取是机器学习中很常用数据处理方式,一般都出现在实际搭建模型之前,以达到特征空间维度的变化(常见是降维操作)。特征提取是通过适当变换把已有样本的D个特征转换成
前面提到特征提取就是通过适当变换将特征从现有的特征空间转换到新的空间。所以特征提取的关键任务在于寻找适当变换,最常采用的变换方法是线性变换,即若
其中,
l
本次我们先介绍喜闻乐见的主成分分析法(PCA)。
PCA是非常常用的数据降维方法。它的基本思想是从一组特征中计算出一组按照重要性的大小从大到小依次排列的新特征,它们是原有特征的线性组合,并且新特征之间不相关, 我们计算出原有特征在新特征上的映射值即为新的降维后的样本。也就是说PCA的目标是用一组正交向量来对原特征进行变换得到新特征,新特征是原有特征的线性组合。
数据说明,样本集为已经经过中心化后的数据,
用矩阵
同时有
若原样本有
展开即为
一. 推导矩阵
1. 计算
我们先考虑第一个新特征上的值
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。