当前位置:   article > 正文

机器学习-密度聚类算法(DBSCAN)_数据密度算法

数据密度算法

1.密度聚类
基于密度的聚类算法由于能够发现任意形状的聚类,识别数据集中的噪声点,可伸缩性好等特点,在许多领域有着重要的应用。

密度算法概念:
1)如果一个数据点周围足够稠密,也就是以这个点为中心,给定半径的邻域内的数据点足够多,密度大于密度阈值(用户指定的参数MinPts),则称这个数据点为核心数据点,否则为边界数据点。
2)研究数据点之间的关系,如果p是一个核心数据点,q属性p的yita邻域,则称q是从p直接密度可达的。
3)如果存在一条链{p1,p2,…,pi},满足p1=p,pi=q,pi直接密度可达pi+1,则称p密度可达q。
4)如果存在r,r密度可达q和p,则称p和q是密度相连的。
5)由于一个核心数据点和其他密度可达的所有数据点构成一个聚类。
DBSCAN算法:
DBSCAN算法思想:寻找数据集D的子集S,S包含于D,S是密度相连的闭集,S满足S中任意两点是密度相连的,并且S中任意点不能和S外的点是密度相连的。DBSCAN从任意一数据点p开始,根据参数yita和MinPts,提取所有从p密度可达的数据点,得到一个聚类。
DBSCAN算法的步骤如下:
1)从任一数据点p开始,对p点数据yita和MinPts进行判定。如果p是核心数据点,则建立新簇S,并将p邻域内的所有点归入S,否则将p点标记为边界点或噪声点。
2)对于S中除p点以外的点继续实施过程1),继续扩充S,直到所有的点都被判定处理。
DBSCAN算法的优点:不易受噪声影响,可以发现任意形状的簇。DBSCAN算法的缺点:受设置参数的影响,判定的标准比较固定,较稀的聚类会被划分为多个类,或密度较大且离得较近的类会被合并成一个聚类。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/810973
推荐阅读
相关标签
  

闽ICP备14008679号