赞
踩
• 边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内
• 噪音点:既不是核心点也不是边界点的点
2 DBSCAN算法流程
2.1 DBSCAN算法流程:
1.将所有点标记为核心点、边界点或噪声点;
2.删除噪声点;
3.为距离在Eps之内的所有核心点之间赋予一条边;
4.每组连通的核心点形成一个簇;
5.将每个边界点指派到一个与之关联的核心点的簇中(哪一个核心点的半径范围之内)。
2.2 举例
有如下13个样本点,使用DBSCAN进行聚类:
(1)取Eps=3,MinPts=3,依据DBSACN对所有点进行聚类(曼哈顿距离)。
(2)• 对每个点计算其邻域Eps=3内的点的集合。
• 集合内点的个数超过MinPts=3的点为核心点
• 查看剩余点是否在核心点的邻域内,若在,则为边界点,否则为噪声点。
(3)将距离不超过Eps=3的点相互连接,构成一个簇,核心点邻域内的点也会被加入到这个簇中。 则下侧形成3个簇。
3 案例1(Python实现 )
3.1 案例
数据介绍:
现有大学校园网的日志数据,290条大学生的校园网使用情况数据,数据包
括用户ID,设备的MAC地址,IP地址,开始上网时间,停止上网时间,上
网时长,校园网套餐等。利用已有数据,分析学生上网的模式。
实验目的:
<
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。