赞
踩
聚类
聚类算法 kmeans原理:
1、随机选取k个中心点;
2、在第i次迭代中,对于每个样本点,选取最近的中心点,归为该类;4、i<-i+1 ,重复(2)(3)迭代更新,直至误差小到某个值或者到达一定的迭代步数,误差不变.
在每次迭代之后,误差变小过程就是趋于收敛的过程;达到一定程度,误差不变,已经完成分类
K-means优化函数
不同的初始化中心点对聚类结果影响较大,如下图
1、一般建议随机选取训练集中的样本进行聚类
2、在K值较小的情况下,多次随机选取中心点
对比不同的聚类结果,之后一般就可以得到对应的类别
聚类算法是一种无监督算法,因此没有明确的具体的确定类别K的方法,一般可以采用如下两种方法:
1、肘部法:我们分别计算K值确定(K=1,2,3,4….)条件下,所有样本的CostFunction J的值,然后我们将这些值连成一条曲线如上图(左)所示,随着聚类数目的增多,畸变(代价)函数的值是如何下降的,你会发现其畸变函数值会随着 K值增多极速下降,当到达K=3时,畸变值就会下降的很慢,K=3正好也是曲线的”肘”点
有时间你画出的曲线并没有明显的肘点,(右上图)此时肘部法则选择聚类数目将变得较为困难
2、用K均值聚类方法是为了得到聚类结果后用于后面的一些用途,根据后续的目的进行分类;
降维
降维的作用
主成因分析
1、主成分第一步要进行变量归一化(如下图),保证所有的特征向量均值均为0
2、计算样本协方差矩阵的特征向量, 按照特征值由大到小进行排列,这将给出成分的重要性级别,选择前1到k项列组成的矩阵,
3、对每个样本根据新得的特征值ureduce进行转换,输出新的样本集
主成因分析可以把一个高纬度的数据压缩为低纬度的数据,我们同样可以根据转换矩阵,把压缩之后的数据,近似的还原成高维数据
主成分分析中如何选择k?
主成分分析压缩数据的过程是基于最小投影距离,如果我们要求损失的信息不能超过原始数据的0.01,如下图
计算可转化为在调用计算协方差函数中的特征值的变量的选取:
PCA使用方法注意:
1、减少内存数据量
2、加速算法性能
3、可视化
PCA容易误用的地方:
1、开始算法设计就直接使用PCA降维,没有考虑原始数据在算法上的表现
应该先考虑原始数据在算法上的表现,之后再考虑是否PCA,PCA能够在算法中实现哪些目的
2、使用PCA方法,降低过度拟合
正则化的方法降低过度拟合是个更好的方式,PCA在降维的过程中会损失掉一部分信息,使用PCA降低过度拟合不是一个号的方法
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。