当前位置:   article > 正文

机器学习——聚类算法K-Means

机器学习——聚类算法K-Means

目录

一、初识聚类

1. 认识聚类算法

2. 聚类的流程

3. 簇内误差平方和

    Inertia越小模型越好吗?

二、KMeans介绍

1. 重要参数n_clusters

2. 模型评估指标

(1)真实标签己知的时候

(2)真实标签未知的时候

三、sklearn中的聚类算法(自查)

1. 类型

2. KMeans参数列表

3. KMeans属性列表

4. KMeans接口列表


一、初识聚类

1. 认识聚类算法

        聚类算法又叫做 “ 无监督分类 ” ,其目的是 将数据划分成有意义或有用的组(或族)。这种划分可以 基于我们的 业务需求 或 建模需求来 完成,也可以 单纯地帮助我们 探索数据的 自然结构和分布。

        聚类和分类的不同:

2. 聚类的流程

        这个过程在可以 由下图来显示,我们规定,将数据分为 4 簇(K=4),其中白色 X 代表质心的位置:

        在每次迭代中 被分配到 这个质心上的 样本都是 一致的,即 每次新生成的簇 都是 一致的,所有的样本点 都不会再 从一个簇转移到 另一个簇,质心就 不会变化了。

3. 簇内误差平方和

        被分在同一个簇 中的数据是 有相似性的,而 不同簇中的数据是 不同的。聚类算法追求 “ 簇内差异小、簇外差异大 〞。而这个“差异”,由 样本点到 其所在簇的质心的 距离来衡量。对于一个簇来说,所有 样本点到质心的 距离之和越小,就认为这个簇中的样本越相似,簇内差异就越小。

        距离的衡量方法有多种,令 x 表示簇中的 一个样本点,

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/958281
推荐阅读
相关标签