赞
踩
聚类分析是一种数据分析技术,对大量未知标注的数据集,通过将具有相似数据特性的数据对象分组到一起,使得类别内的数据相似度较大而类别间的数据相似度较小,以便对这些数据对象进行更好的理解和分析。总的来说,聚类分析就是将数据划分成有意义或有用的组(簇)。
注:聚类分析是无监督学习。
划分聚类简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集。
层次聚类是嵌套簇的集族,组织成一棵树。
每个点到同簇中任一点的距离比到不同簇中所有点的距离更近。
每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近。对于具有连续属性的数据,簇的原型通常是质心,即簇中所有点的平均值。当质心没有意义时,原型通常是中心点,即簇中最有代表性的点。
基于中心的( Center-Based)的簇:每个点到其簇中心的距离比到任何其他簇中心的距离更近。
簇是对象的稠密区域,被低密度的区域环绕。
可以把簇定义为有某种共同性质的对象的集合。例如:基于中心的聚类。还有一些簇的共同性质需要更复杂的算法才能识别出来。
K-Means算法,被成为k-平均或k-均值,是一种广泛使用的聚类算法,或者成为其他聚类算法的基础。
假定输入样本为 S = x 1 , x 2 , … , x m S=x_1, x_2, \dots, x_m S=x1,x2,…,xm, 则算法步骤为:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。