当前位置:   article > 正文

CURE层次聚类_cure聚类

cure聚类

思路

1 最开始,每个对象就是一个独立的类
2 为了处理大数据,采用“随机抽样”(降低数据量,提高效率)和“分割手段”(样本分割成几部分,然后针对每部分局部聚类,形成子类,再对子类聚类形成新的类)。
3 传统算法通常采用一个对象来代表类,cure采用“多个中心”代表类
4 对噪声点的处理:
(1)聚类过程中增长缓慢(我认为是类内个数增加速度慢)的直接剔除
(2)聚类快结束的时候,把类内个数明显少的类剔除

和AGNES算法的区别

取消了使用所有点或用中心点+距离来表示一个类,而是从每个类中抽取固定数量、分布较好的点作为此类的代表点,并将这些代表点(一般10个)乘以一个适当的收缩因子(一般设置0.2~0.7之间),使它们更加靠近类中心点。代表点的收缩特性可以调整模型可以匹配那些非球形的场景,而且收缩因子的使用可以减少噪音对聚类的影响。

代表点 不是原来的点,而是那些需要重新计算的点。

公式

在这里插入图片描述

例题详解

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/347729
推荐阅读
相关标签
  

闽ICP备14008679号