赞
踩
——基于*质心*和基于*代表对象*方法之间的中间策略
算法提出:
很多聚类算法只擅长处理球形或者相似大小的聚类。另外有些聚类算法对孤立点比较敏感。
CURE算法解决了上述两个问题,选择基于质心和基于代表对象之间的中间策略,即选择空间中固定数目的具有代表性的点,而不是单个中心或对象来代表一个簇。
簇的代表点产生方式:首先选择簇中分散的对象,然后根据一个特定的分数或收缩因子向簇中心收缩或移动它们。在算法的每一步,有最近距离的代表点对的两个簇被合并。(每个点来自于一个不同的簇)
该算法首先把每个数据点看成一个簇,然后再以一个特定的收缩因子向簇中心“收缩”它们,即合并两个距离最近的代表点的簇。
每个簇都有多个代表点使CURE可以适应非球形的几何形状。簇的收缩可以有助于控制孤立点的影响。因此CURE对孤立点的处理更加健壮,而且能够识别非球形和大小变化比较大的类。
针对大型数据库,CURE采用随机取样和划分两种方法组合:一个随机样本首先被划分,每个划分被部分聚类。
CURE算法实例参考:
CURE算法优点:
可以适应非球形的几何形状
将一个簇用多个代表点来表示,使得类的外延可以向非球形的形状扩展,从而可调整类的形状以表达非球形的类。
对孤立点的处理更加健壮
收缩因子降低了噪声对聚类的影响,从而使CURE对孤立点的处理更加健壮。
能识别非球形和大小变化较大的簇。
Matlab实现的下载地址:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。