当前位置:   article > 正文

k-modes聚类算法_kmodes聚类算法

kmodes聚类算法

引言

之前介绍的K-means和k-medoids算法都是针对数据为数值型的聚类算法,计算样本间的距离采用的是欧式距离,所以如果数据变量是类别型的采用这两种算法,就需要先进行one-hot编码或者dummy coding。针对类别型变量的聚类,可以采用k-modes聚类算法。

k-modes算法

当数据变量为数值型时,可以采用k-modes算法进行聚类。因为该算法中计算的是样本间的汉明距离,如果变量取值不是数值,最好先进行LabelEncode,计算速度会更快。

k-modes算法步骤:
1.随机选取k个初始中心点;
2.针对数据集中的每个样本点,计算样本点与k个中心点的距离(这边计算的是汉明距离,为两个样本点不同的属性取值的个数),将样本点划分到离它最近的中心点所对应的类别中;
3.类别划分完成后,重新确定类别的中心点,将类别中所有样本各特征的众数作为新的中心点对应特征的取值,即该类中所有样本的众心;
4.重复步骤2 3,直到总距离(各个簇中样本与各自簇中心距离之和)不再降低,返回最后的聚类结果。

算法总结:
1)基于“众心”的聚类方法;
2)数据变量为类别型的聚类方法;
3)时间复杂度低于K-means和K-medoids聚类;

python实现

#加载所需模块
from kmodes import kmodes
import multiprocessing
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
  • 1
  • 2
  • 3
  • 4
  • 5
#模型训练不同的类别数对应的SSE及模型
	def TrainCluster(df, start_k=2, end_k=20):
    print('training cluster')
    K = []
    SSE = []
    silhouette_all = []
    models = [] #保存每次的模型
    for i in range(start_k, end_k):
        kmodes_model = kmodes.KModes(n_clusters=i, n_jobs=multiprocessing.cpu_count())
        kmodes_model.fit(df)
        a = metrics.silhouette_score(df, kmodes_model.labels_, metric='hamming')
        SSE.append(kmodes_model.cost_)  # 保存每一个k值的SSE值
        K.append(i)
        print('{} Means SSE loss = {}'.format(i, kmodes_model.cost_))
        silhouette_all.append(a)
        print('这个是k={}次时的轮廓系数{}:'.format(i,a))
        models.append(kmodes_model) #保存每个k值对应的模型

    return(K,SSE,silhouette_all,models)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19

通过指定不同的类别数k,得到不同的k值对应的SSE值(SSE值即各类别中样本点到中心点的距离之和),进而构建不同的k-modes模型。

#用肘部法则来确定最佳的K值
train_cluster_res = TrainCluster(data,start_k=2, end_k=20)
K = train_cluster_res[0]
SSE = train_cluster_res[1]
plt.plot(K, SSE, 'bx-')
plt.xlabel('聚类类别数k')
plt.ylabel('SSE')
plt.xticks(K)
plt.title('用肘部法则来确定最佳的k值')
plt.show()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

不同的k值与SSE值得对应关系,最终画出一条曲线,这条曲线相当于人的手肘,而肘部对应的点就是最佳的k取值点,即曲线的拐点

#用轮廓系数确定最佳的k值
score = train_cluster_res[2]
  • 1
  • 2
#确定了最佳的k值后
models = train_cluster_res[3]
best_model = models[K.index(k)]

#模型评价,计算轮廓系数
silhouette_score = silhouette_score(data,best_model.labels_,metric='hamming')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/773350
推荐阅读
相关标签
  

闽ICP备14008679号