赞
踩
问题二:
根据附件数据分析高钾玻璃、铅钡玻璃的分类规律;对于每个类别选择合适的化学成分对其进行亚类分析,给出具体的划分方法以及划分结果,并对分类结果的合理性和敏感性进行分析。
题目要求我们探究高钾玻璃和铅钡玻璃的分类规律,并对每个类别进行亚类划分,最后分析模型的合理性和敏感性。
第一步分析:针对高钾玻璃和铅钡玻璃不同化学成分的数值进行统计,找到其具有代表性的化学指标的变化情况作为分类的依据。并针对玻璃种类进行聚类分析,将系统聚类的结果与实际值进行比较,从而判断分类标准划分的合理性。
第二步分析:在此基础上进行亚类划分,观察化学成分在风化前后的变化情况,颜色变化,纹理变化等,并给出相应的分类依据。
题目要求我们根据附件数据分析高钾玻璃以及铅钡玻璃的分类规律,并对于 每个类别选取合适的化学成分进行亚类分类,对分类结果的合理性和敏感性进行 分析。我们结合附件的表 1 和表 2 ,对高钾玻璃进行聚类,对铅钡玻璃进行聚类, 采用层次聚类算法,并可视化聚类效果,统计分析两种玻璃分别在这几种亚类别 在成分上的区别。
首先针对玻璃种类进行聚类分析,不划分具体的玻璃类型,仅根据是否风化 进行分析,将系统聚类的结果与实际值进行比较,从而判断分类标准划分的合理性。
系统聚类的合并算法通过计算两类数据点间的距离,对最为接近的两类数据 点进行组合,并反复迭代这一过程,直到所有的数据点合成一类,并生成聚类谱系图,如下图所示:
算法总结如下表:
我们利用 Python 求出聚类系数与 K 值的关系为:
根据聚合系数折线图可知,当类别数为 4 时,折线的下降趋势趋于缓慢,故 可将类别数设定为 4。 从图中可以看出,K 值从 2 到 4,畸变程度变化最大,超过 4 以后,畸变程 度变化显著降。因此肘部就是 K = 4,故可将类别数设定为 4(当然, K =5 或者 6 也可以解释)。
根据以上计算步骤,带入到 Python 中进行求解,得出系统聚类中不同玻璃 类型树状图如下图所示:
根据上图所示的分类结果,结合每一类中文物编号,计算其所属的类别,并 与实际是否属于高钾玻璃与铅钡玻璃进行分析,计算分类正确与错误的个数,并 将错误数据标红处理,分类结果如下表所示:
由上表可知,高钾玻璃中风化前后的分类正确率为 90%,铅钡玻璃风化前后 的分类正确率 74%,说明模型的合理性较好。
高钾数据经过 PCA 降维后的部分数据为:
我们接下来对高钾玻璃的数据进行 K-means 聚类分析。 K-means 算法是基于划分方法聚类的,原理是先初始化 k 个簇类中心,基于 计算样本与中心点的距离归纳各簇类下的所属样本,迭代实现样本与其归属的簇 类中心的距离为最小的目标(如下目标函数):
我们利用 Python 求解后的分类为:
分类结果为:
聚类中心为:
与上面的步骤相同,我们对铅钡玻璃进行聚类分析,取 k=5,分类结果如下 图所示:
分类结果为:
铅钡玻璃的聚类中心为:
(下面仅展示部分数据)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。