赞
踩
高维数据降维是指采用某种映射方法,降低随机变量的数量,例如将数据点从高维空间映射到低维空间中,从而实现维度减少。
降维分为:特征选择 和 特征提取
特征选择:是从含有冗余信息以及噪声信息的数据中找出主要变量;
特征提取:是去掉原来的数据,生成新的变量,可以寻找数据内部的本质结构特征。
降维的过程是通过对输入的原始数据特征进行学习,得到一个映射函数,实现将输入样本映射后到低维空间中之后,原始数据特征并没有明显的损失,通常情况下新空间的维度要小于原空间的维度。目前大部分降维算法是处理向量形式的数据。
对于任意 m × n m \times n m×n 的输入矩阵 A A A ,SVD(奇异值分解) 分解结果为 A m n = U m r S r r V n r T A_{mn} = U_{mr}S_{rr}V_{nr}^T Amn=UmrSrrVnrT
其中 U U U 为左奇异矩阵, S S S 为奇异值矩阵,除主对角线上的元素外全为0,主对角线上的每个元素都称为奇异值, V V V 为右奇异矩阵。矩阵 U 、 V U、V U、V 中的列向量均为正交单位向量,而矩阵 S S S 为对角矩阵,并且从左上到右下以递减的顺序排序,可以直接借用 SVD 的结果来获取协方差矩阵的特征向量和特征值。
这个可以拿 iris 数据做试验。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。