赞
踩
本文的研究目的是基于R语言的k-prototype算法,帮助客户对新能源汽车行业上市公司进行混合型数据集的聚类分析(点击文末“阅读原文”获取完整代码数据)。
相关视频
通过对公司的财务数据、市场表现和发展战略等多个方面的变量进行聚类分析,我们可以将这些公司划分为不同的类别,并分析不同类别的特点和发展趋势。
这样的研究结果对于投资者、政策制定者和行业从业者都具有重要的参考价值,可以帮助他们更好地了解新能源汽车行业上市公司的发展状况和市场表现,从而做出更明智的决策。
本项目旨在使用聚类算法对不同城市的新能源汽车行业上市公司进行分类与排序,以寻找客观真实的公司分层方法、支持业务运营与决策。
首先,由于数据集呈现分类变量与数值变量混合的特点,本次数据分析将采用K-prototype算法:
K-prototype算法:无需创建哑变量,将分别为分类变量计算汉明距离、为数值型变量计算欧几里得距离然后得出聚类结果。算法运行结束后将使用成本函数评价聚类效果。其次,数值型变量b、c、d的量纲明显不等,为避免量纲影响距离计算中不同变量的权重,需要对变量b、c、d进行处理。由于不知道是否符合正态分布,在这里使用归一化而非标准化。
在进行聚类分析之前,首先需要查看数据集,了解数据的结构和特征。通过使用R语言中的相关函数和包,我们可以读取数据集,并使用函数如summary()和head()来查看数据的概要和前几行。
data=read.csv("新能源汽车 汇总.csv")
在进行聚类分析之前,我们需要了解数据中各个变量之间的相关性。通过计算相关系数,我们可以得到一个关于变量之间关联程度的度量。R语言中的cor()函数可以用来计算相关系数矩阵,并通过可视化工具如热图来展示相关系数的模式。
在进行聚类分析之前,我们需要选择适当的聚类算法。对于混合型数据集,我们可以使用R语言中的k-prototype算法。该算法可以同时处理数值型和分类型变量,并根据变量之间的相似性将样本划分为不同的聚类。
- x=data[,-c(1:2)]
- d <- dist(x)
- pclust=function(k){
- n=nrow(data)
- cut <- tocut(hc, k=k)
- h <- hc$height[n - k]
- clust(3)
点击标题查阅往期内容
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。