当前位置:   article > 正文

判断聚类 n_clusters_sklearn 聚类如何确定n_clusters

sklearn 聚类如何确定n_clusters

目录

基本原理

代码实现:

肘部法则(Elbow Method):

轮廓系数(Silhouette Coefficient)

Gap Statistic(间隙统计量):

Calinski-Harabasz Index(Calinski-Harabasz指数):


基本原理

这些方法(肘部法则、轮廓系数、Gap Statistic、Calinski-Harabasz Index)都是用于确定聚类算法中的 n_clusters(簇的数量)参数,但它们之间存在一些区别。下面是它们的主要特点以及适用情况的总结:

  1. 肘部法则(Elbow Method):

    • 特点:通过绘制聚类结果的损失函数值与 n_clusters 的关系图,找到“肘部”处的拐点作为最佳 n_clusters
    • 适用情况:当数据集的聚类结构明显时,该方法通常有效。但是,对于数据集没有明显的肘部的情况,或者肘部并不明显时,该方法可能无法提供确定的最佳 n_clusters
  2. 轮廓系数(Silhouette Coefficient):

    • 特点:计算每个样本的轮廓系数(介于-1和1之间),并计算出所有样本的平均轮廓系数。最大化平均轮廓系数可以确定最佳的 n_clusters
    • 适用情况:适用于各种类型的数据集,尤其是数据分布相对均匀且没有明显的几何形状的聚类结构。需要注意的是,轮廓系数的计算复杂度较高,对于大型数据集可能会有一定的性能开销。
  3. Gap Statistic(间隙统计量):

    • 特点:通过比较聚类结果与随机数据模拟结果的区别,使用统计学原理来选择最佳 n_clusters。Gap Statistic 值越大,表示聚类效果越好。
    • 适用情况:适合于具有明显聚类结构的数据集,对于不同密度、大小和形状的聚类表现较好。需要注意的是,该方法对数据集的假设要求较高,在某些情况下可能会得到不准确的结果。
  4. Calinski-Harabasz Index(Calinski-Harabasz指数):

    • 特点:通过计算聚类之间的离散度与聚类内部的紧密度之比,确定最佳的 n_clusters。Calinski-Harabasz 指数值越大,表示聚类效果越好。
    • 适用情况:适合于具有清晰、凸形状的聚类结构的数据集。对噪声和异常值比较敏感,处理非凸形状的聚类时可能出现一些偏差。

在选择适当的方法时,应综合考虑以下因素:

  • 数据特征:数据集的聚类结构、形状、噪声以及是否具有明显的几何形态等特征。
  • 算法要求:不同的方法可能对数据集的假设和计算复杂度有不同的要求。
  • 领域知识:对数据集具有领域知识,可以帮助理解数据的特点,并选择适合的评估指标和方法。

代码实现:

肘部法则(Elbow Method):

  1. import matplotlib.pyplot as plt
  2. from sklearn.datasets import load_iris
  3. from sklearn.cluster import KMeans
  4. from sklearn.metrics import silhouette_score
  5. # 肘部法则(Elbow Method):绘制不同 n_clusters 下的聚类误差平方和(SSE)曲线。
  6. # 观察 SSE 曲线的形状,找到一个"肘部弯曲点",
  7. # 即在该点后,SSE 的下降速度变得缓慢。
  8. # "肘部弯曲点"对应的 n_clusters 值就是一个合适的选择。
  9. #
  10. # 例如,在上述代码示例中,使用 plt.plot(k_range, sse, 'bx-') 绘制了 SSE 曲线。观察曲线,如果在某个 n_clusters 值处出现明显弯曲,且在该点之后 SSE 的下降速度变得缓慢,那么该 n_clusters 值可以被认为是一个合适的选择。
  11. # 加载Iris数据集
  12. iris = load_iris()
  13. # 构造K-Means聚类模型
  14. model = KMeans()
  15. # 肘部法则选择n_clusters
  16. sse = []
  17. k_range = range(2, 10) # 需要尝试的n_clusters范围
  18. for k in k_range:
  19. model.set_params(n_clusters=k)
  20. model.fit(iris.data)
  21. sse.append(model.inertia_)
  22. plt.plot(k_range, sse, 'bx-')
  23. plt.xlabel('Number of Clusters (k)')
  24. plt.ylabel('SSE')
  25. plt.title('The Elbow Method')
  26. plt.show()
  27. # 轮廓系数选择n_clusters
  28. silhouette_scores = []
  29. for k in k_range:
  30. model.set_params(n_clusters=k)
  31. labels = model.fit_predict(iris.data)
  32. score = silhouette_score(iris.data, labels)
  33. silhouette_scores.append(score)
  34. plt.plot(k_range, silhouette_scores, 'bx-')
  35. plt.xlabel('Number of Clusters (k)')
  36. plt.ylabel('Silhouette Coefficient')
  37. plt.title('Silhouette Score')
  38. plt.show()

轮廓系数(Silhouette Coefficient)

  1. import matplotlib.pyplot as plt
  2. from sklearn.datasets import load_iris
  3. from sklearn.cluster import KMeans
  4. from sklearn.metrics import silhouette_score
  5. # 加载Iris数据集
  6. iris = load_iris()
  7. # 构造K-Means聚类模型
  8. model = KMeans()
  9. k_range = range(2, 10) # 需要尝试的n_clusters范围
  10. silhouette_scores = []
  11. for k in k_range:
  12. model.set_params(n_clusters=k)
  13. labels = model.fit_predict(iris.data)
  14. score = silhouette_score(iris.data, labels)
  15. silhouette_scores.append(score)
  16. plt.plot(k_range, silhouette_scores, 'bx-')
  17. plt.xlabel('Number of Clusters (k)')
  18. plt.ylabel('Silhouette Coefficient')
  19. plt.title('Silhouette Score')
  20. plt.show()
  1. Gap Statistic(间隙统计量):

  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. from sklearn.datasets import load_iris
  4. from sklearn.cluster import KMeans
  5. from sklearn.metrics import pairwise_distances
  6. from sklearn.metrics import silhouette_score
  7. # 选择 Gap Statistic 最大的 n_clusters 值。
  8. # 加载Iris数据集
  9. iris = load_iris()
  10. # 构造K-Means聚类模型
  11. model = KMeans()
  12. k_range = range(2, 10) # 需要尝试的n_clusters范围
  13. gap_scores = []
  14. for k in k_range:
  15. model.set_params(n_clusters=k)
  16. labels = model.fit_predict(iris.data)
  17. dist_matrix = pairwise_distances(iris.data)
  18. gap = np.mean(np.log(np.mean(np.min(dist_matrix[:, labels], axis=1))))
  19. gap_scores.append(gap)
  20. plt.plot(k_range, gap_scores, 'bx-')
  21. plt.xlabel('Number of Clusters (k)')
  22. plt.ylabel('Gap Statistic')
  23. plt.title('Gap Statistic')
  24. plt.show()
  1. Calinski-Harabasz Index(Calinski-Harabasz指数):

  1. import matplotlib.pyplot as plt
  2. from sklearn.datasets import load_iris
  3. from sklearn.cluster import KMeans
  4. from sklearn.metrics import calinski_harabasz_score
  5. # 选择具有最大 Calinski-Harabasz 指数的 n_clusters 值。
  6. # 加载Iris数据集
  7. iris = load_iris()
  8. # 构造K-Means聚类模型
  9. model = KMeans()
  10. k_range = range(2, 10) # 需要尝试的n_clusters范围
  11. calinski_scores = []
  12. for k in k_range:
  13. model.set_params(n_clusters=k)
  14. labels = model.fit_predict(iris.data)
  15. score = calinski_harabasz_score(iris.data, labels)
  16. calinski_scores.append(score)
  17. plt.plot(k_range, calinski_scores, 'bx-')
  18. plt.xlabel('Number of Clusters (k)')
  19. plt.ylabel('Calinski-Harabasz Index')
  20. plt.title('Calinski-Harabasz Index')
  21. plt.show()

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/132398
推荐阅读
  

闽ICP备14008679号