当前位置:   article > 正文

R语言k-prototype聚类新能源汽车行业上市公司分析混合型数据集

新能源汽车词云数据集

全文链接:http://tecdat.cn/?p=32785

本文的研究目的是基于R语言的k-prototype算法,帮助客户对新能源汽车行业上市公司进行混合型数据集的聚类分析点击文末“阅读原文”获取完整代码数据)。

相关视频

通过对公司的财务数据、市场表现和发展战略等多个方面的变量进行聚类分析,我们可以将这些公司划分为不同的类别,并分析不同类别的特点和发展趋势。

这样的研究结果对于投资者、政策制定者和行业从业者都具有重要的参考价值,可以帮助他们更好地了解新能源汽车行业上市公司的发展状况和市场表现,从而做出更明智的决策。

分析目标

本项目旨在使用聚类算法对不同城市的新能源汽车行业上市公司进行分类与排序,以寻找客观真实的公司分层方法、支持业务运营与决策。

方法论

首先,由于数据集呈现分类变量与数值变量混合的特点,本次数据分析将采用K-prototype算法:

K-prototype算法:无需创建哑变量,将分别为分类变量计算汉明距离、为数值型变量计算欧几里得距离然后得出聚类结果。算法运行结束后将使用成本函数评价聚类效果。其次,数值型变量b、c、d的量纲明显不等,为避免量纲影响距离计算中不同变量的权重,需要对变量b、c、d进行处理。由于不知道是否符合正态分布,在这里使用归一化而非标准化。

查看数据

在进行聚类分析之前,首先需要查看数据集,了解数据的结构和特征。通过使用R语言中的相关函数和包,我们可以读取数据集,并使用函数如summary()和head()来查看数据的概要和前几行。

9321bf17ea12a1c80b94795f0e47a65c.png

data=read.csv("新能源汽车 汇总.csv")

e20faaae43125cbcab9fdd37680e16c7.png

求出相关系数

在进行聚类分析之前,我们需要了解数据中各个变量之间的相关性。通过计算相关系数,我们可以得到一个关于变量之间关联程度的度量。R语言中的cor()函数可以用来计算相关系数矩阵,并通过可视化工具如热图来展示相关系数的模式。

0615ee583db34d1be376d22f745096f6.png

dcc2e3ae00f95a97fe7465d26a72c114.png

b868cfa86d4b77a3ad0d3e127554e3a4.png

457faf564051757b03111a9cd67b1b78.png

对数据进行kp聚类(k=3)

在进行聚类分析之前,我们需要选择适当的聚类算法。对于混合型数据集,我们可以使用R语言中的k-prototype算法。该算法可以同时处理数值型和分类型变量,并根据变量之间的相似性将样本划分为不同的聚类。

  1. x=data[,-c(1:2)]
  2. d <- dist(x)
  3. pclust=function(k){
  4.   n=nrow(data)
  5. cut <- tocut(hc, k=k)
  6.  h <- hc$height[n - k]
  7. clust(3)

dfee9788a12640236232f1de3dbb71af.png


点击标题查阅往期内容

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/803153
推荐阅读
相关标签
  

闽ICP备14008679号