当前位置:   article > 正文

聚类分析_多聚类分析离散值分析预测值大于observe离散程度更高,怎样写

多聚类分析离散值分析预测值大于observe离散程度更高,怎样写

今天看了一本关于聚类分析的书,看的时候对该书中的一些概念性的东西进行了摘要,现在对其进行归纳总结一下,方便以后查找与学习。

聚类,顾名思义,就是根据一定的区分规则将数据分组为多个类或者簇。对各个类之间的关系进行分析就叫做关联分析。如果预测的变量是离散的,则这类问题就叫做分类,如果是连续的,则称为回归。

聚类根据分类方式可以分为硬聚类和模糊聚类。硬聚类就是将一个数据归为唯一类,而模糊聚类是通过隶属函数来确定每一个数据隶属于各类的程度。举个例子,假如你看到一本书,你觉得它可能是小明或者小红的,让你做一个判断,你说它就是小明的,这就是硬聚类。假如你说40%是小红的,60%的可能性是小明的,这就是软分类,也就是模糊聚类。

聚类根据算法来分可以分为划分聚类算法、层次聚类算法、密度聚类算法、网格聚类算法以及模型聚类算法。划分聚类算法就是对已某一数据集,采用目标函数最小化的策略进行划分为n个类。划分聚类算法主要包括k-means算法(质心)和k-medoids算法(中心)。层次聚类算法就是将数据分成建立簇,形成一棵以簇为节点的数。但是单独用层次聚类的效果特别差,一般都是讲层次方法和其他方法相结合,形成多阶段聚类,改善聚类质量。密度聚类方法是从数据对象的分布密度出发,把密度足够大的区域连接起来。网格方法是把空间量化为有限个单元,然后对量化后的空间进行聚类。基于模型的方法主要有统计学方法和神经网络方法等。高斯混合模型就是基于统计学的方法。

描述聚类的特征主要包括质心、离差矩阵与协方差矩阵以及直径。

数据类型主要包括数据矩阵和相似度矩阵,相似度矩阵式指n个对象两两之间的近似性。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/885056
推荐阅读
相关标签
  

闽ICP备14008679号