赞
踩
1 最开始,每个对象就是一个独立的类
2 为了处理大数据,采用“随机抽样”(降低数据量,提高效率)和“分割手段”(样本分割成几部分,然后针对每部分局部聚类,形成子类,再对子类聚类形成新的类)。
3 传统算法通常采用一个对象来代表类,cure采用“多个中心”代表类
4 对噪声点的处理:
(1)聚类过程中增长缓慢(我认为是类内个数增加速度慢)的直接剔除
(2)聚类快结束的时候,把类内个数明显少的类剔除
取消了使用所有点或用中心点+距离来表示一个类,而是从每个类中抽取固定数量、分布较好的点作为此类的代表点,并将这些代表点(一般10个)乘以一个适当的收缩因子(一般设置0.2~0.7之间),使它们更加靠近类中心点。代表点的收缩特性可以调整模型可以匹配那些非球形的场景,而且收缩因子的使用可以减少噪音对聚类的影响。
代表点 不是原来的点,而是那些需要重新计算的点。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。