搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
黑客灵魂
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
Elastic实战:彻底解决spring-data-elasticsearch日期、时间类型数据读取报错问题_failed to convert from type [java.lang.string] to
2
资源收集统计——私人使用_pritunl 公钥
3
2021-06-21_mysql开启事务的关键字是
4
动态规划图文详解_动态规划算法图解
5
QT之QEvent机制
6
图--最小生成树(Prim和Kruskal算法)_prim算法权值相同的边得到的最小生成树的总权值
7
喰星云·数字化餐饮服务系统 多处 SQL注入漏洞复现
8
pyside6 - 简单了解_pysdie6
9
TCP是什么、UDP是什么,它们有什么区别
10
从善小说讲的什么_如何起出“叫好又叫座”的小说标题?7个爆款方法,抓住读者眼球...
当前位置:
article
> 正文
K-Means聚类算法以及扩展算法K-Modes、K-Prototype_kmeans 的扩展
作者:黑客灵魂 | 2024-07-09 17:25:25
赞
踩
kmeans 的扩展
k-means聚类算法是一种简单易行,时间复杂度低的聚类算法,特别是针对大规模的数据集。但其只能处理数值属性限制了他的应用范围,它的具体算法步骤如下:
1.确立最终聚类处理得到簇的个数,如果有先验知识,如知道一个数据集为有3类,则可设k=3。如果不清楚,有一些指导性方法可确定估计值;
2.选取k条初始记录作为质心,k条记录的欧式具体尽量大,说明记录的相关性低,提高聚类效果;
3.从数据集读取一条记录,计算与k个质心的欧式距离,并归并到距离最短的一个簇内,并更新簇的质心;重复第三部直至将数据集读取完;
4.重新调整记录所属的簇,这一步也是比较难理解的。因为每个簇的质心随着加入记录而更新改变,因此导致原先属于这个簇的记录由于与现在改变后的另外一个簇的质心距离更短,所以也应该重新将它分配到更短距离的那个簇上。分配后更新所有簇的质心,不断重复第四步知道没有记录重新分配。
K-means算法2个核心问题:
1.度量记录之间的相关性的计算公式,此处采用欧式距离
2.更新簇内质心的方法,此处采用平均值法,即means;
K-modes算法是按照k-means算法的核心内容进行修改,针对分类属性的的1.度量。2.更新质心的问题而改进。具体如下
1.度量记录之间的相关性D的计算公式是比
较两记录之间,属性相同为0,不同为1.并所有相加。因此D越大,即他的不相关程度越强(与欧式距离代表的意义是一样的);
2.更新modes,使用一个簇的每个属性出现频率最大的那个属性值作为代表簇的属性值(如{[a,b] [a,c] [c,b] [b,c]})代表模式为[a,b]或者[a,c];
K-Prototype算法是结合K-Means与K-modes算法,针对混合属性的,解决2个核心问题如下:
1.度量具有混合属性的方法是,数值属性采用K-means方法得到P1,分类属性采用K-modes方法P2,那么D=P1+a*P2,a是权重,如果觉得分类属性重要,则增加a,否则减少a,a=0时即只有数值属性
2.更新一个簇的中心的方法,方法是结合
K-Means与K-modes的更新方法
总结:这三种方法将只针对数值属性的k-means算法扩展到可以解决分类属性与混合属性,实验结果表明k-modes的算法时间复杂度比其余两者低。三者时间复杂度成线性增长。但存在问题如下:
1.K值的确立
2.
k-prototype中权重a的确立
3.k条初始记录的选取
百科解释:
k-modes算法是在数据挖掘中对分类属性型数据的采用的聚类算法。k-modes算法是对k-means算法的扩展。k-means算法是在数据挖掘领域中普遍应用的聚类算法,它只能处理数值型数据,而不能处理分类属性型数据。例如表示人的属性有:姓名、性别、年龄、家庭住址等属性。而k-modes算法就能够处理分类属性型数据。k-modes算法采用差异度来代替k-means算法中的距离。k-modes算法中差异度越小,则表示距离越小。一个样本和一个聚类中心的差异度就是它们各个属性不相同的个数,不相同则记为一,最后计算一的总和。这个和就是某个样本到某个聚类中心的差异度。该样本属于差异度最小的聚类中心。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/黑客灵魂/article/detail/803143
推荐阅读
article
聚类
算法
Clustering
概述分析_
k
-
modes
clustering
...
k
-means:仅适用数值Dataset;1.确定
聚类
数目
k
;2.选取
k
个初始中心点;3.将Dataset中的每一个元素...
赞
踩
article
means" href="/w/人工智能uu/article/detail/810395" target="_blank">使用
>
Groovy> "*“
操作符
_
>
groovy> -
>
>
means>...
means" href="/w/人工智能uu/article/detail/810395" target="_blank">obj.collect { it -
>
it?.action }可以简化为obj*.action一个例子,右对齐打印ss...
赞
踩
article
【数据挖掘】
基于
密度
的
聚类
方法
-
DBSCAN
方法
( K-
Means
方法
缺陷 |
基于
密度
聚...
I . K-
Means
算法在实际应用中的缺陷II . K-
Means
初始中心点选择不恰当III . K-
Means
...
赞
踩
article
数学建模之
聚类
算法
(K-
means
)_
k
平均
聚类
初始
聚类
中心
和最终
聚类
中心
是什么...
计算两条数据相似性时, S
k
learn的K-Means默认使用的是欧式距离。如果要改变计算距离的公式时,可以改变K-me...
赞
踩
article
Kmeans
应用_
montesinho
公园
简介...
数据来源 :http://archive.ics.uci.edu/ml/index.php中的一组表格数据(加拿大Mon...
赞
踩
article
聚类
(
k
means
)-
吴恩达
机器学习基于
python
_#
生成随机的
k
个
中心
,请使用
sample
(
k
)...
这里写自定义目录标题visualize datadata1data22D Kmeans步骤编程调用函数进行
聚类
运用肘部法...
赞
踩
article
K-
means
++_
k
个
初始化
的
质心
位置
选择
对最后
的
聚类
结果和运行时间均有很大
的
影响,因此需要
选择
...
K-
means
++是对K-
means
初始化
的
优化。
k
个
初始化
的
质心
的
位置
选择
对最后
的
聚类
结果和运行时间都有很大
的
影响,因...
赞
踩
article
kmeans
python自定义
初始
聚类
中心
_机器学习-
KMeans
聚类
K值以及
初始
类簇
中心
点的选...
【转】http://www.cnblogs.com/kemaswill/archive/2013/01/26/28774...
赞
踩
article
KMeans
++
的
初始化
方法_
kmeans
初始化
方法...
KMeans
++
的
初始化
方法:1、随机选一个样本作为第一个簇中心。2、计算每个样本到最近簇中心的距离。3、以距离为概率...
赞
踩
article
k
means
,
k
值
选择
,
初始
点_
k
-
means
算法
中
k
值和类
中
初始
点的
选择
方法。...
打卡+坚持今日语录:告别平庸,告别懒惰,告别拖延,告别借口一、
k
means
的原理:
k
means
是常用的聚类方法,主要思想...
赞
踩
article
标准K-
mean
s
算法
的缺陷、K-
mean
++
初始化
算法
、
初始化
算法
步骤、K
mean
s
++
算法
实现_...
标准K-
mean
s
算法
的缺陷、K-
mean
++
初始化
算法
、
初始化
算法
步骤、K
mean
s
++
算法
实现标准K-
mean
s
算法
...
赞
踩
article
K-
means
[np.
argwhere
/图片压缩/k
means
.
cluster
_
centers
_]_...
K均值算法(K-
means
)聚类【关键词】K个种子,均值一、K-
means
算法原理聚类的概念:一种无监督的学习,事先不知...
赞
踩
article
数据挖掘
Java
——K
means
算法
的实现_
java
k-
means
...
K-
means
聚类
算法
是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分...
赞
踩
article
数据
分享|R
语言
聚类
、文本
挖掘
分析
虚假
电商
评论
数据
:K-
MEANS
(K-均值)、层次
聚类
、词云可视化...
本文通过R
语言
利用K-
MEANS
算法和层次
聚类
对
电商
评论
数据
进行
分析
,识别虚假
评论
。通过词云可视化,揭示
评论
中的高频词汇...
赞
踩
相关标签
groovy
K-Means
DBSCAN
密度可达
密度连接
核心对象
聚类
机器学习
算法
吴恩达
python
K-means++
kmeans python自定义初始聚类中心
KMeans++
深度学习
数据挖掘
神经网络
自然语言处理
java
kmeans
r语言
均值算法
开发语言