赞
踩
聚类算法属于无监督学习:训练数据只有输入变量 x 而没有输出变量 y 。
无监督学习的目的是将这些训练数据潜在的结构或者分布找出来,以便于我们对这些数据有更多的了解。
注:超参数 —— k 的取值大小,直接影响着KNN 算法的结果。
当取 k=3 时,根据多数选举法,预测结果为 B;但当 k=6 时,依然是根据多数选举法,预测结果就成为了 A。
k 是 KNN 算法唯一的超参数,因此,它对于 KNN 尤其重要。这一点和 KMeans 的 k 参数之于 KMeans,颇为神似。
聚类技术,一句话概括:聚类就是通过对样本静态特征的分析,把相似的对象分到同一个子集,属于一种无监督式学习算法。
所以这在本质上回到了不同样本之间的相似性度量(Similarity Measurement)。这时通常采用的方法就是计算样本间的 “距离”(distance)。
可参考之前的文章:距离度量和范数
或者 机器学习中的相似性度量
核心:把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定
本质:K代表的是K类,means代表的是中心。K-means的本质就是确定K类的中心点,当找到了这些中心点也就完成了聚类。
K-means 是通过迭代的方式寻找K个簇(Cluster)的一种划分方案,使得聚类结果对应的代价函数最小。
K-Means算法实施需要满足两个前提:
根据分布的先验概率,求得K
种子点的选取要cunning,尽量地远一点
代价函数可以定义为各个样本距离所属簇中心点的误差平方和:
其中xi代表第i个样本,ci是xi所属于的簇,μci代表簇对应的中心点,M 是样本总数。
EM 算法
期望最大化(expectation-maximization,E-M)是一种非常强大的算法,应用于数据科学的很多场景中。k-means 是该算法的一个非常简单并且易于理解的应用。
EM 步骤
EM 可能不会达到全局最优结果
解决:用不同的初始值尝试很多遍
在 Scikit-Learn 中通过 n_init 参数(默认值是 10)设置执行次数。
必须提前告诉算法簇的数量(K 值)
解决:合理选择 K 值—— 手肘法(暴力求解)
手肘法认为拐点就是 K 的最佳值。
k-means 算法只能确定线性聚类边界
k-means 聚类的边界总是线性的,这就意味着当边界很复杂时,算法会失效。
当数据量较大时,k-means 会很慢
由于 k-means 的每次迭代都必须获取数据集所有的点,因此随着数据量的增加,算法会变得缓慢。
解决:每一步仅使用数据集的一个子集来更新簇中心点。这恰恰就是批处理(batch-based) k-means 算法的核心思想。
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
设置 centers=5
X, y = make_blobs(n_samples=500, n_features=2,
centers=5, cluster_std=1.0, random_state=0)
plt.scatter(X[:, 0], X[:, 1], cmap='viridis', s=20)
# 人为选择 n_clusters=4
km_model = KMeans(n_clusters=4)
km_model.fit(X)
获取信息:簇中心坐标、数据标签
y_pred = km_model.predict(X)
centers = km_model.cluster_centers_
# print(y_pred)
# print(centers)
用带彩色标签的数据来展示聚类结果。同时,画出簇中心点
plt.scatter(centers[:, 0], centers[:,1],
c='black', cmap='viridis', s=500, alpha=1)
plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', s=10)
# 手动实现K-means (K-means:EM算法的应用) from sklearn.metrics import pairwise_distances_argmin def find_clusters(X, n_clusters, rseed=2): # 随机选取 clusters rng = np.random.RandomState(rseed) i = rng.permutation(X.shape[0])[:n_clusters] centers = X[i] while True: # 2a.基于最近的中心指定标签 labels = pairwise_distances_argmin(X, centers) # 2b. 根据点的平均值找到新的中心 new_centers = np.array([X[labels == i].mean(0) for i in range(n_clusters)]) # 2c. 确认收敛 if np.all(centers == new_centers): break centers = new_centers return centers, labels centers, labels = find_clusters(X, 4) plt.scatter(X[:, 0], X[:, 1], c=labels, s=30, cmap='viridis');
DBSCAN是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。具体算法描述如下: (1)检测数据库中尚未检查过的对象p,如果p未被处理(归为某个簇或者标记为噪声),则检查其邻域,若包含的对象数不小于minPts,建立新簇C,将其中的所有点加入候选集N; (2)对候选集N 中所有尚未被处理的对象q,检查其邻域,若至少包含minPts个对象,则将这些对象加入N;如果q 未归入任何一个簇,则将q 加入C; (3)重复步骤2),继续检查N 中未处理的对象,当前候选集N为空; (4)重复步骤1)~3),直到所有对象都归入了某个簇或标记为噪声。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。