赞
踩
第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)
第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)
第五章【机器学习】【监督学习】- 决策树 (Decision Trees)
第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)
第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)
第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)
第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)
十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)
十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)
十七、【机器学习】【非监督学习】- K-均值 (K-Means)
十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
目录
二、层次聚类 (Hierarchical Clustering)
非监督学习是一种机器学习方法,它处理的是没有标签的数据集。与监督学习不同,非监督学习算法不需要知道数据的正确分类或目标值。它的目标是通过数据内部的结构和模式来推断出有意义的信息,如数据的分布、聚类、降维或异常检测等。
非监督学习的训练流程通常包含以下几个步骤:
数据准备:收集和预处理数据,可能包括数据清洗、缺失值处理、数据标准化或归一化等。
模型选择:根据问题的性质选择合适的非监督学习算法。
参数初始化:初始化模型的参数,这一步对于某些算法至关重要,如K-means聚类。
模型训练:使用无标签数据训练模型,寻找数据中的结构或模式。这一过程可能涉及到迭代优化,直到满足某个停止准则,如收敛或达到预定的迭代次数。
结果评估:评估模型的结果,这通常比监督学习更具有挑战性,因为没有明确的“正确答案”。评估可能基于内在指标(如聚类的紧凑度和分离度)或外在指标(如与已知分类的比较)。
应用模型:使用训练好的模型对新数据进行分析或预测,如对新数据进行聚类或降维。
非监督学习算法可以大致分为以下几类:
聚类算法:用于将数据点分组到不同的簇中,常见的算法有K-means、层次聚类、DBSCAN、Gaussian Mixture Models等。
降维算法:用于减少数据的维度,同时尽可能保留数据的结构信息,常见的算法有PCA(主成分分析)、t-SNE(t-分布随机邻域嵌入)、自编码器等。
关联规则学习:用于发现数据集中项之间的关系,如Apriori算法和Eclat算法。
异常检测算法:用于识别数据集中的异常点或离群点,如Isolation Forest、Local Outlier Factor等。
自组织映射(SOM):一种神经网络模型,用于数据可视化和聚类,可以将高维数据映射到低维空间中。
生成模型:如变分自编码器(VAE)和生成对抗网络(GAN),它们可以生成类似训练数据的新样本。
非监督学习在很多场景中都有广泛应用,如客户细分、图像识别、自然语言处理、生物信息学和推荐系统等。由于其灵活性和在处理大量未标注数据时的优势,非监督学习是数据科学和人工智能领域的重要组成部分。
层次聚类(Hierarchical Clustering)是一种无监督学习的聚类算法,用于发现数据集中的自然分组或聚类。不同于k-means等迭代型聚类算法,层次聚类构建了一个聚类的层次结构,这个结构通常表现为一棵树,称为聚类树或树状图(dendrogram)。层次聚类可以分为两种主要类型:凝聚式(Agglomerative)和分裂式(Divisive)。
初始化:
计算距离矩阵:
合并聚类:
重复合并:
构建树状图:
确定聚类数目:
层次聚类因其生成的树状图能够提供数据的层次结构信息,常用于生物信息学、文本分析等领域,特别适合于数据探索和理解数据的内在组织结构。
层次聚类可以与其他技术结合,例如使用不同的距离度量或链接规则(如单链、全链、平均链等)来改进聚类效果。此外,为了提高大型数据集的处理能力,可以采用近似算法或数据降维技术。在某些情况下,层次聚类也可以与其它类型的聚类算法(如k-means)结合使用,以优化最终的聚类结果。例如,可以使用层次聚类来初步确定k-means算法中k的值,或作为预处理步骤来减少k-means的迭代次数。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。