赞
踩
我们知道,监督学习的评价指标是准确率、召回率、
F
1
、
F
β
F_1、F_\beta
F1、Fβ、ROC-AUC等等,但聚类方法在大多数情况下数据是没有标签的,这些情况下聚类就不能使用以上的评价指标了。
聚类有自己的评价指标,大多数聚类的评价指标是通过紧凑性和可分性来定义的。紧凑性基本上是衡量一个聚类中的元素彼此之间的距离,而可分性表示不同聚类之间的距离,总的来说聚类的评价指标有以下三个类型:
1、外部指标:这是处理有标签数据时使用的评分,可以说监督学习的评价指标都是外部指标。
2、内部指标:使用数据来衡量数据和结构之间的吻合度。
3、相对指标:通过对比,表明两个聚类结构中哪一个在某种意义上更好。
Adjusted Rand Index是外部指标的一种,其得分区间是 [ − 1 , 1 ] [-1,1] [−1,1]。在计算Adjusted Rand Index前,我们要先计算一下Rand Index。
Rand Index是Adjusted Rand Index的前身,Rand Index因为惩罚力度不够,导致聚类得分普遍很高,因此才有Adjusted Rand Index。
R
I
=
a
+
b
(
n
2
)
RI = \frac{a+b}{
a:表示在真实标签上在同一个分类,聚类后也在同一个分类的对数。
b:表示在真实标签上不在同一个分类,聚类后也不在同一个分类的对数。
(
n
2
)
例如:
假设有数据(a,b,c,d,e),在真实标签中(a,b)为一类,(c,d,e)为另一类,而聚类后(a,b,c)为一类,(d,e)为另一类,那么
a = C 2 2 + C 2 2 = 2 a = C^2_2 + C^2_2 = 2 a=C22+C22=2
b = C 2 1 ∗ C 2 1 = 4 b = C^1_2 * C^1_2 = 4 b=C21∗C21=4
( n 2 ) = C 5 2 = 10= C^2_5 = 10 (n2)=C52=10(n2)
R I = 2 + 4 10 = 0.6 RI = \frac{2+4}{10} = 0.6 RI=102+4=0.6
A
R
I
=
R
I
−
E
x
p
e
c
t
e
d
I
n
d
e
x
m
a
x
(
R
I
)
−
E
x
p
e
c
t
e
d
I
n
d
e
x
ARI = \frac{RI- ExpectedIndex}{max(RI)-ExpectedIndex}
ARI=max(RI)−ExpectedIndexRI−ExpectedIndex
ARI的原始公式是这样子的:
轮廓系数是内部指标的一种,其得分区间是
[
−
1
,
1
]
[-1,1]
[−1,1]。
计算数据点的轮廓系数:
S
i
=
b
i
−
a
i
m
a
x
(
a
i
,
b
i
)
S_i = \frac{b_i - a_i}{max(a_i,b_i)}
Si=max(ai,bi)bi−ai
a是同一个聚类中到其它样本的平均距离;
b是与它距离最近的不同的聚类的样本的平均距离。
聚类的轮廓系数:
S
=
∑
i
=
1
n
S
i
n
S = \frac{\sum^{n}_{i=1}S_i}{n}
S=n∑i=1nSi
轮廓系数的缺点:
1、轮廓系数不适合评价紧凑的环形的数据聚类;
2、当模型是DBSCAN时,不适合使用轮廓系数作为评价指标。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。