赞
踩
k-means:仅适用数值Dataset;
1.确定聚类数目k;2.选取k个初始中心点;3.将Dataset中的每一个元素分别与k个中心点计算欧氏距离,归并到欧氏距离最近的类中;4.使用平均值法means更新k个中心点;迭代3.4步骤直到中心点无变化得到结果;
k-modes:适用非数值Dataset;
与k-means区别之处:
1.相关度D计算方法:D = 两组数据之间所有不同属性值的个数;
2.中心点更新方法:以每个类中每种属性的众数mode作为类的属性更新值;
k-prototype:适用混合数值Dataset;
相关性度量:D=P1+a*P2,其中P1采用k-means度量,P2采用k-modes度量,a是权重;
难点总结:1.k的确定;2.k个初始中心点的选取;3.k-prototype中权重a的确定;
mean-shift-clustering:无需提前预知聚类数目k
1.确定滑动窗口的半径,随机选择一系列中心点C;
2.每个滑动窗口向数据点密度更高的方向移动,并以区域内的均值更新中心点;
3.当向任意方向移动均无法提高区域密度时,结束滑动;
4.当产生的多个窗口有重叠时,仅保留密度最高的窗口,得到k个窗口;
5.根据产生的k个区域中心点,对整个数据集进行聚类;
Density-Based Spatial Clustering of Application with Noise:
DBSCAN将簇定义为密度相连的点的最大集合,可在有噪声的空间数据库中实现任意形状聚类;
优点:无需簇的数目k;
缺点:参数-半径r和minPoints对聚类结果影响较大,需要调参经验;
EM(Expectation-Maximization) Clustering with GMM(Gaussian Mixture Model):
当数据集中的点分布规律不能用中心均值(k-means)表示时,需要使用GMM方法
高斯混合模型(Gaussian Mixture Model):使用EM算法迭代求解
k-means根据每个类簇距离尺度来聚类,需要对数据进行归一化;高斯混合模型不需要归一化,因为它对每个类簇分别考虑了特征的协方差;
GMM引入了隐变量:均值和协方差
EM算法流程
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。