赞
踩
k-means是以最小化样本与质点平方误差作为目标函数,将每个簇的质点与簇内样本点的平方距离误差和(sum of the squared errors,SSE,误差平方和)称为畸变程度(distortions),那么,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,畸变程度越高,代表簇内结构越松散。
当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数.
例如上图,在k=5时,相较于k=4时,畸变程度的变化急剧减小,所以,在k=4这点就是最佳的k值
实例代码
- import pandas as pd
- from sklearn.cluster import KMeans
- import matplotlib.pyplot as plt
-
- df_features = pd.read_csv(r'x:\xxxx.csv',encoding='gbk')
- SSE = [] # 存放每次结果的误差平方和
- for k in range(1,9):
- estimator = KMeans(n_clusters=k) # 构造KMeans聚类器
- estimator.fit(df_features[['R','F','M']]) # 训练模型
- SSE.append(estimator.inertia_) # estimator.inertia_获取聚类准则的总和
- X = range(1,9)
- plt.xlabel('k')
- plt.ylabel('SSE')
- plt.plot(X,SSE,'o-')
- plt.show()
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。