机器学习系列——（十九）层次聚类_层次聚类旨在通过将数据集中的对象组合成层次结构的聚类来揭示数据的内在结构

作者：小丑西瓜9 | 2024-02-18 01:02:16

踩

层次聚类旨在通过将数据集中的对象组合成层次结构的聚类来揭示数据的内在结构

引言

在机器学习和数据挖掘领域，聚类算法是一种重要的无监督学习方法，它试图将数据集中的样本分组，使得同一组内的样本相似度高，不同组间的样本相似度低。层次聚类（Hierarchical Clustering）是聚类算法中的一种，以其独特的层次分解方式，在各种应用场景中得到广泛应用，如生物信息学、图像分析、社交网络分析等。

一、概述

层次聚类算法主要分为两大类：凝聚的层次聚类（Agglomerative Hierarchical Clustering）和分裂的层次聚类（Divisive Hierarchical Clustering）。凝聚的层次聚类从每个数据点作为单独的簇开始，逐渐合并为更大的簇；而分裂的层次聚类则是从一个包含所有数据点的单一簇开始，逐步细分为更小的簇。这两种方法都会形成一个树形结构，称为层次聚类树或者聚类树（Dendrogram），通过这个树形结构，我们可以清晰地看到数据点是如何逐步聚合或分裂的。

二、算法

1. 凝聚的层次聚类

凝聚的层次聚类是最常用的层次聚类方法。它的基本步骤如下：

初始化：将每个数据点视为一个单独的簇。
寻找最近的簇：计算所有可能的簇对之间的距离，找出距离最近的一对簇。
合并簇：将最近的簇合并成一个新的簇。
更新距离：重新计算新形成的簇与其他簇之间的距离。
重复步骤2-4，直到所有数据点都聚合成一个簇，或达到预定的簇数量。

在这个过程中，簇之间的距离可以通过不同的方法来定义，常见的有：

单链接（Single Linkage）：簇间距离定义为两个簇中最近两个点的距离。
完全链接（Complete Linkage）：簇间距离定义为两个簇中最远两个点的距离。
平均链接（Average Linkage）：簇间距离定义为两个簇中所有点对的平均距离。
质心链接（Centroid Linkage）：簇间距离定义为两个簇质心之间的距离。

2. 分裂的层次聚类

分裂的层次聚类与凝聚的层次聚类相反，它从一个包含所有数据点的单一簇开始，通过迭代地将簇分裂成更小的簇，直到每个簇只包含一个数据点，或达到预定的簇数量为止。分裂的层次聚类较少使用，因为其实现较为复杂，计算成本也较高。

3. 聚类树（Dendrogram）

无论是凝聚还是分裂的层次聚类，最终都可以生成一个聚类树，即Dendrogram。Dendrogram是一种树形图，用于展示数据点是如何步骤聚合或分裂的。通过观察Dendrogram，我们不仅可以了解聚类的层次结构，还可以根据需要选择不同级别的聚类划分。

三、层次聚类的优缺点

优点：

不需要预先指定簇的数量。
能够生成任意形状的簇。
生成的Dendrogram提供了丰富的信息，有助于理解数据结构。

缺点：

对于大规模数据集，计算成本较高，尤其是在计算簇间距离时。
簇的合并或分裂决策是顺序进行的，一旦完成就不能更改，这可能导致不理想的聚类结果。

四、应用实例

层次聚类在许多领域都有广泛的应用。例如，在生物信息学中，层次聚类被用来分析和分类基因表达数据；在客户细分中，帮助企业理解不同类型的客户群体；在文本分析中，用于文档或文章的分类等。

五、结语

层次聚类是一种强大而灵活的聚类方法，能够揭示数据的内在结构和层次关系。虽然它在处理大规模数据集时存在一定的局限性，但通过采用适当的优化和启发式方法，仍然可以有效应用于各种实际问题中。理解层次聚类的原理和方法，能够帮助我们更好地利用这一技术，发掘数据中隐藏的模式和知识。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/103086