赞
踩
(1)数据预处理,如归一化、离群点处理等
(2)随机选取K个簇中心,记为
u
1
0
,
u
2
0
.
.
.
u
k
0
u_1^{0},u_2^{0}...u_k^{0}
u10,u20...uk0
(3)定义代价函数,表示在一个簇内,各个样本距离所属簇中心点的误差平方和
J
(
c
,
u
)
=
∑
i
=
1
M
∣
∣
x
i
−
u
c
i
∣
∣
2
J(c,u) = \sum_{i=1}{M}||x_i-u_{c_i}||^2
J(c,u)=∑i=1M∣∣xi−uci∣∣2,其中
x
i
x_i
xi代表第i个样本,
c
i
c_i
ci是
x
i
x_i
xi所属的簇,
u
c
i
u_{c_i}
uci代表簇对应的中心点,M是样本数。刻画了簇内样本围绕簇均值向量的紧密程度。
(4)令
t
=
0
,
1
,
2
,
.
.
.
t=0,1,2,...
t=0,1,2,...为迭代步数,重复下面过程直到J收敛。
损失函数是各个样本距离所属簇中心点的误差平方和
J
(
c
,
u
)
=
∑
i
=
1
M
∣
∣
x
i
−
u
c
i
∣
∣
2
J(c,u) = \sum_{i=1}{M}||x_i-u_{c_i}||^2
J(c,u)=∑i=1M∣∣xi−uci∣∣2,其中
x
i
x_i
xi代表第i个样本,
c
i
c_i
ci是
x
i
x_i
xi所属的簇,
u
c
i
u_{c_i}
uci代表簇对应的中心点,M是样本数。
(1)缺点
(2)优点
(1)数据归一化和离群点处理
(2)合理的选择K值
评价指标函数有误差平方和SSE和轮廓系数,通过可视化,采用手肘法去判断最佳的K值
(3)采用核函数
称为核K均值算法,是核聚类方法的一种,主要思想是通过一个非线性映射,将输入空间中的数据点映射到高位的特征空间中,并在新的特征空间中聚类。非线性映射增加了数据点线性可分的概率,从而在经典的聚类算法失效的情况下,通过引入核函数可以达到更为准确的聚类结果。
(1)Kmeans++
随机选择第一个簇心,则在选取之后簇心的时候,距离当前n个簇心越远的点有更高被选为第n+1的簇心。
(2)ISODATA算法
当K值不确定的时候,可以使用ISODATA算法。全称是迭代自组织数据分析法。
算法思想是当属于某个类别的样本过少时,把该类别去除;当属于某个类别的样本数过多、分散成都较大时,把该类别分为两个子类别。在K均值上增加了两个操作,一个是分裂操作,对应增加聚类中心数,二是合并操作,对应减少聚类重心数。
缺点是:需要指定的参数比较多。有四个,分别是
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。