（数据科学学习手札16）K-modes聚类法的简介&Python与R的实现

作者：我家自动化 | 2024-07-09 17:12:03

踩

k-modes聚类python

我们之前经常提起的K-means算法虽然比较经典，但其有不少的局限，为了改变K-means对异常值的敏感情况，我们介绍了K-medoids算法，而为了解决K-means只能处理数值型数据的情况，本篇便对K-means的变种算法——K-modes进行简介及Python、R的实现：

K-modes是数据挖掘中针对分类属性型数据进行聚类采用的方法，其算法思想比较简单，时间复杂度也比K-means、K-medoids低，大致思想如下：

假设有N个样本，共有M个属性，均为离散的，对于聚类数目标K：

step1：随机确定k个聚类中心C1,C2...Ck，Ci是长度为M的向量，Ci=[C1i,C2i,...,CMi]

step2：对于样本xj(j=1,2,...,N)，分别比较其与k个中心之间的距离（这里的距离为不同属性值的个数，假如x1=[1,2,1,3],C1=[1,2,3,4]x1=[1,2,1,3],C1=[1,2,3,4]，那么x1与C1之间的距离为2）

step3：将xj划分到距离最小的簇，在全部的样本都被划分完毕之后，重新确定簇中心，向量Ci中的每一个分量都更新为簇i中的众数

step4：重复步骤二和三，直到总距离（各个簇中样本与各自簇中心距离之和）不再降低，返回最后的聚类结果

下面对一个简单的小例子在Python与R中的K-modes聚类过程为例进行说明：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/803105