赞
踩
kmeans算法是无监督聚类学习中最常见、最常用的算法之一,其基本原理如下:
1、随机初始化k个聚类中心点,并计算数据中每个点到k个点的距离;
2、将每个数据点分到距离聚类中心点最近的聚类中心中;
3、针对每个类别重新计算聚类中心;
4、重复上面的2、3步骤中,直到达到预先设置的停止条件(迭代次数、最小误差变化等)。
kmeans算法其实挺简单,但是聚类个数k应该如何的选择?目前常用有肘部法则和轮廓系数法等。肘部法则通过寻找损失值下降平稳的拐点来确定k值,而轮廓系统则是通过寻找轮廓系数的最大值来进行计算:
肘部法则SSE(误差平方和):
轮廓系数:
通过Python模拟数据,应用kme
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。