赞
踩
基于原型的聚类技术创建是数据对象的单层划分。最突出的是 K 均值 和 K 中心点。
为了将点指派到最近的质心,我们需要邻近性度量来量化所考虑的数据的“最近”概念。通常,对欧式空间中的点使用欧几里得距离,对文档用余弦相似性。对于给定的数据类型,可能存在多种适合的邻近性度量。
通常,K均值使用的相似性度量相对简单,因为算法要重复地计算每个点与每个质心的相似度,然而在某些情况下,如数据在低维欧几里得空间时,许多相似度的计算都有可能避免,因此显著地加快了 K均值算法的速度。 二分K 均值是另一种通过减少相似度计算量来加快 K 均值速度的方法。
K均值算法中, 质心可能随着数据邻近性度量和聚类目标不同而改变。聚类的目标通常用一个目标函数来表示,该函数依赖于点之间,或点到簇的质心的邻近性;如最小化每个点到最近质心的距离的平方。
当质心随机初始化时, K均值的不同运行将产生不同的总 SSE(误差的平方和)。
dist 是欧几里得空间中两个对象之间的标准欧几里得距离
以上图为例。
上图左侧显示了一个聚类结果,三个簇的SSE 是全局最小的,而图右 显示了一个次最优聚类,它只有局部最小。
选择适当的初始质心是基本 K 均值过程的关键过程,常见的方法是随机地选取初始质心,但是簇的质量常常很差。
图 8-5与上图数据集相同,但是由于簇的初始位置不同,最终可以看到聚类并不是很好
如何处理随机初始化带来的问题?
处理选取初始质心问题的一种常用技术:多次运行,每次用一组不同的随机初始质心(即不断的试错,总能找到好的),然后选取具有最小SSE的簇集。
该策略虽然简单,但是效果可能不好,这取决于数据集合寻找簇的个数。
上图如果对每个簇对(上下算一对)用两个初始质心,即使两个质心在一个簇中,,质心也会自己重新分布。从而找到真正的簇。
而换个方式,一个簇对用一个初始质心,另一对有三个,则两个真正的簇(即上下一个簇对)合并了,而另外一个分裂了。
随着簇的增加,至少一个簇对只有一个初始质心的可能性也逐步增大。在这种情况下,由于簇对相距较远, K 均值算法不能再簇对之间重新分布质心,这样只能得到局部最优。
因此常常使用其他技术进行初始化,一种有效的方法是,取一个样本,并使用层次聚类技术对它聚类。从层次聚类中提取 K 个簇,并用这些簇的质心作为初始质心。
有效范围:(1)样本相对较小,例如数百到数千(因为层次聚类开销较大) (2) K 相对样本大小较小。
K 均值的空间需求是适度的,因为只需要存放数据点和质心,具体来说,所需要的存储量为 O(m + K)n ,其中 m 是点数, n 是属性数, K 均值的时间需求基本上与数据点个数线性相关,具体需要时间为 O(I * K * m* n),其中 I 是收敛所需要的迭代次数。 I 通常很小,可以是有界的,因为大部分变化通常出现在前几次迭代。 因此,只要簇个数 K 显著小于 m ,则 K 均值的计算时间与 m 线性相关,并且是有效的和简单的。
一种明显降低SSE的方法就是找出更多簇,即使用较大的 K,然后很多情况下我们既要降低SSE,但并不想增加簇的个数。
这是可能的,因为 K均值常常收敛于局部极小,可以使用多种技术来“修补” 结果簇,以便产生较小 SSE 的聚类。
策略是每一个簇,因为总 SSE 只不过是每个簇的 SSE 之和,通过在簇上进行诸如分裂和合并等操作,我们可以改变总 SSE ,一种常用的方法是交替地使用簇分裂和簇合并。在分裂阶段将簇分开,而在合并阶段将簇合并。用这种方法,常常可以避开局部最小。并且仍能够得到具有期望个数簇的聚类。
通过增加簇个数来降低总SSE策略:
通过减少簇个数来最小化总SSE的增长策略:
注意,每步需要零次或两次簇质心更新,因为一个点或者转移到一个新的簇(两次更新),或者留在它的当前簇(零次更新)。使用增量更新策略确保不会产生空簇,因为所有的簇都从单个点开始,并且如果一个簇只有单个点,则该点总是被重新指派到相同的簇。
此外,使用增量更新,可以调整点的相对权值。
增量更新的另一个优点是使用不同于“最小化SSE”的目标。假设给定一个度量簇集的目标函数。当我们处理某个点时。我们可以对每个可能的簇指派计算目标函数的值,然后选择优化目标的簇指派。
缺点:增量地更新质心可能导致次序依赖性,即所产生的簇可能依赖于点的处理次序,此外,增量更新的开销也稍微大一些。
对基本 K 均值算法的直接补充,它基于一种简单思想;为了得到 K 个簇,将所有点的结合分裂成两个簇,从这些簇中选取一个继续分裂,如此直到产生 K 个簇。
如图所示:
二分K均值不太受初始化的困扰,因为它执行力多次二分试验并选取了最小 SSE 的试验结果,还因为每步只有两个质心。
对于发现不同的簇类型, K 均值和它的变种都具有一些局限性。具体地说,当簇具有非球形形状或者具有不同尺寸或密度时, K均值很难检测到“自然”的簇。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。