赞
踩
目录
聚类算法又叫做 “ 无监督分类 ” ,其目的是 将数据划分成有意义或有用的组(或族)。这种划分可以 基于我们的 业务需求 或 建模需求来 完成,也可以 单纯地帮助我们 探索数据的 自然结构和分布。
聚类和分类的不同:
这个过程在可以 由下图来显示,我们规定,将数据分为 4 簇(K=4),其中白色 X 代表质心的位置:
在每次迭代中 被分配到 这个质心上的 样本都是 一致的,即 每次新生成的簇 都是 一致的,所有的样本点 都不会再 从一个簇转移到 另一个簇,质心就 不会变化了。
被分在同一个簇 中的数据是 有相似性的,而 不同簇中的数据是 不同的。聚类算法追求 “ 簇内差异小、簇外差异大 〞。而这个“差异”,由 样本点到 其所在簇的质心的 距离来衡量。对于一个簇来说,所有 样本点到质心的 距离之和越小,就认为这个簇中的样本越相似,簇内差异就越小。
距离的衡量方法有多种,令 x 表示簇中的 一个样本点,
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/958281
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。