赞
踩
K均值(K-Means)聚类是一种非常常见的无监督学习算法,用于将数据点划分为K个集群。以下是使用Python和scikit-learn库实现K均值聚类分析的基本步骤:
下面是一个简单的示例:
- from sklearn.cluster import KMeans
- import numpy as np
- import matplotlib.pyplot as plt
-
- # 1. 准备数据集
- # 假设我们有一个二维数据集
- data = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
-
- # 2. 初始化K均值聚类器
- # 我们选择K=2,即我们想要将数据划分为两个集群
- kmeans = KMeans(n_clusters=2, random_state=0)
-
- # 3. 训练聚类器
- kmeans.fit(data)
-
- # 4. 预测数据点的集群
- labels = kmeans.predict(data)
-
- # 5. 可视化结果
- plt.scatter(data[:, 0], data[:, 1], c=labels, s=50, cmap='viridis')
-
- # 画出聚类中心
- centers = kmeans.cluster_centers_
- plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5);
-
- plt.show()
在上面的代码中,我们首先导入了必要的库,然后准备了一个简单的二维数据集。我们初始化了一个K均值聚类器,设置了集群数量为2,并使用数据集对其进行训练。然后,我们使用聚类器预测数据点的集群,并使用matplotlib库将结果可视化。最后,我们还画出了每个集群的中心点。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。