当前位置:   article > 正文

第11章 聚类_c语言实现欧式距离

c语言实现欧式距离

目录

1 简介:

2 常见的聚类方法:

3 欧式空间:

4 划分法(K-means算法)

4.1 算法思路:

4.2 算法总结:

4.3 K-means算法的改进:

4.3.1 k-means++算法:

4.3.2 Mini-Batch K-Means 算法:

5 层次法:

5.1 凝聚层次聚类(AGNES)

5.2 分裂层次聚类(DIANA)

6 密度法(DBSCAN聚类):

6.1 基本概念:

6.2 算法流程: 

6.3 调参:

6.4 优缺点:

7 其余的聚类算法:

8 实战:

8.1 实战一:

8.1.1 目的:

8.1.2 步骤:

8.1.3 代码:

8.2 实战二:

8.2.1 目的:

8.2.2 步骤:

8.2.3 代码:


1 简介:

聚类是一种无监督学习方法,用于将数据集中的样本划分为具有相似特征的组或簇。聚类的目标是在不事先知道样本的类别标签的情况下,通过发现数据内在的结构和模式,将相似的样本归为一类,并将不相似的样本彼此分开。

聚类算法的工作原理通常是基于样本之间的相似性度量或距离度量。常见的聚类算法包括K均值聚类、层次聚类、DBSCAN、高斯混合模型等。

2 常见的聚类方法

当涉及聚类时,可以根据不同的方法和技术来组织数据。下面将介绍划分法、层次法、密度法、图论法、网格法和模型法,并提供每种方法的优点、缺点以及代表性算法。

  1. 划分法(Partitioning Methods):

    • 简介:划分法将数据集划分为不相交的簇,每个样本只属于一个簇。划分法通常需要指定簇的数量。
    • 优点:易于理解和实现,适用于大型数据集
    • 缺点:对于复杂的数据集,初始簇中心的选择可能会影响最终结果,结果可能会收敛到局部最优解
    • 代表算法:K均值聚类(K-means clustering),K均值++(K-means++),K均值||(K-means||)。
  2. 层次法(Hierarchical Methods):

    • 简介:层次法按照不同的策略构建聚类层次结构,可以是自底向上的凝聚型聚类,也可以是自顶向下的分裂型聚类。
    • 优点:不需要预先指定簇的数量,可以提供不同层次的聚类结果,可视化效果好。
    • 缺点:计算复杂度较高,对大型数据集不太适用。
    • 代表算法:凝聚型层次聚类(Agglomerative Clustering),分裂型层次聚类(Divisive Clustering)。
  3. 密度法(Density-Based Methods):

    • 简介:密度法基于样本之间的密度连接来发现聚类。它将样本聚集在高密度区域,并将低密度区域视为噪声或离群点
    • 优点:对于不规则形状的簇和噪声数据具有较好的鲁棒性
    • 缺点:对于不同的数据集和参数设置,结果可能有所不同,对密度参数敏感
    • 代表算法:DBSCAN(Density-Based Spatial Clustering of Applications with Noise),OPTICS(Ordering Points To Identify the Clustering Structure)。
  4. 图论法(Graph-Based Methods):

    • 简介:图论法将数据集表示为图的形式,其中样本作为节点,边表示样本之间的相似性或连接关系。聚类通过图的连接结构来确定。
    • 优点:对于具有复杂连接结构的数据集,具有较好的表现。
    • 缺点:对于参数的选择和图的构建方法较为敏感
    • 代表算法:谱聚类(Spectral Clustering),基于最小生成树的聚类(Minimum Spanning Tree Clustering)。
  5. 网格法(Grid-Based Methods):

    • 简介:网格法将数据空间划分为规则的网格单元,并在每个单元中计数样本数目或密度来进行聚类。
    • 优点:对于高维数据集和离群点具有较好的处理能力。
    • 缺点:对于数据分布不均匀的情况,可能需要调整网格大小和形状
    • 代表算法:STING(Statistical Information Grid Clustering),CLIQUE(CLustering In QUEst)。
  6. 模型法(Model-Based Methods):

    • 简介:模型法假设数据由概率模型生成,并通过估计模型参数来进行聚类。
    • 优点:可以处理复杂的数据分布,并生成概率模型来描述聚类结果。
    • 缺点:对于模型的复杂性和参数选择较为敏感,对初始值敏感。
    • 代表算法:高斯混合模型(Gaussian Mixture Model,GMM),期望最大化(Expectation Maximization,EM)算法。

这些聚类方法在不同的数据集和应用中具有各自的优点和缺点。选择适当的方法取决于数据的特征、问题的要求以及算法的可行性。在实际应用中,可能需要尝试多种方法并进行比较,以获得最佳的聚类结果。 

3 欧式空间:

世间万物,皆为混沌。为此,人类世界经历了原始社会、奴隶社会、封建社会、资本主义社会到共产主义社会,这是人类社会从低级到高级的发展过程。但从哲学的角度看来,这实际上是一种从无序到有序的过程。人类社会如此,数学亦是如此。
数字的无穷尽给它的使用带来了极大不便,为此,在一维空间建立了“数轴”,以将这些数字按序列在一条直线上,既便于比较也便于查找与定位,如:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/293314?site
推荐阅读
相关标签