机器学习之k均值聚类_软kmeans

作者：繁依Fanyi0 | 2024-02-22 07:13:54

踩

软kmeans

文章目录

前言
一、什么是k-means聚类算法？
- 1、软聚类
- 2、硬聚类
二、算法原理介绍
三、举例计算
参考文献

前言

今天一起学习下机器学习的今典分类算法之k-means

一、什么是k-means聚类算法？

k均值聚类是基于样本集合划分的聚类算法。简而言之，k 均值聚类将样本划分为 k 个类，将 n 个样本划分到 k 个类中，每个样本到其所属类中心的距离最小。k-means聚类属于硬聚类。

1、软聚类

软聚类就是把数据以一定的概率分到各类中，比如高斯混合模型(GMM)，比如模糊 C 均值模型(Fuzzy c-Means)。聚类的结果往往是样本1在A类的概率是 0.7，在 B 类的概率是 0.3。软聚类又称为模糊聚类(fuzzy clustering）。

2、硬聚类

硬聚类就是把数据确切地分到某一类中，比如K-Means。

二、算法原理介绍

1、损失函数

定义样本与其所属类中心的距离总和为损失函数
$\begin{aligned} W(C) = \displaystyle\sum_{l=1}^k\displaystyle\sum_{C(i)=l}||x_i - \overline{x_l}||^2 \end{aligned}$
式中， $\overline{x_l} = (\overline{x}_{1l}, \overline{x}_{2l}, ...,\overline{x}_{ml})$ 是第 l 个类的中心（均值），m代表特征数。

k均值聚类是通过使损失函数最小化来选择最优的划分或者函数 $C\ast$ 。
$\begin{aligned} C\ast = arg \underset{C}{min}\displaystyle\sum_{l=1}^k\displaystyle\sum_{C(i)=l}||x_i - \overline{x_l}||^2 \end{aligned}$

2、算法流程

输入：n 个样本的集合
输出：样本集合的聚类 $C\bullet$

初始化。令 t = 0，随机选择 k 个样本点作为初始聚类中心 $m^{(0)} = (m^{(0)}_1,m^{(0)}_l,...,m^{(0)}_k)$ 。
对样本聚类。对固定的类中心 $m^{(t)} = (m^{(t)}_1, m^{(t)}_l, ..., m^{(t)}_k)$ ，其中， $m^{(t)}$ 为类 $G_l$ 的中心，计算每个样本到中心的距离，将每个样本指派到距离最近的类中，构成聚类结果 $G^{(t)}$ 。
更新聚类中心。根据聚类结果 $G^{(t)}$ ，计算当前各个类中样本的均值，作为新的类中心 $m^{(t+1)} = (m^{(t+1)}_1,m^{(t+1)}_l,...,m^{(t+1)}_k)$ 。
根据约束条件判断是否结束，未结束则返回样本聚类（一般下一次迭代和上一次结果相同）。

3、时间复杂度

k 个类，需要迭代 k 次，每次迭代需要计算 n 个样本的 m 个特征的均值，所以k-means的时间复杂度为O(nmk)，其中 n 为样本数，k 为类别数，m 为特征数。

三、举例计算

人帅字丑。

参考文献

李航.统计学习方法(第二版) [M].北京：清华大学出版社，2019

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/129050?site