赞
踩
目录
一、 问题重述 4
1 . 1 研究背景 4
1 . 2 问题提出 4
二、 整体思路与模型概述 4
2 . 1 问题分析与模型概述 4
2 . 1 . 2 问题二的分析 6
2 . 1 . 3 问题三的分析 6
2 . 1 . 4 问题四的分析 6
2 . 2 整体思路 7
图 1 整体思路流程图 8
3 . 1 . 1 决策树 8
ID3 8
ID3 9
3 . 1 . 2 分析与可视化 9
表 1 标注编号描述 9
图 2 决策树可视化关系 10
图 3 经过 PCA 降维的玻璃散点图 10
图 4 化学成分与玻璃种类的曼惠特尼检验结果 11
图 5 化学成分与玻璃种类的曼惠特尼检验结果 11
图 6 化学成分与高钾玻璃风化程度曼惠特尼检验结果 11
图 7 未风化与风化的高钾玻璃的化学成分分布图 11
图 8 化学成分与铅钡玻璃风化程度曼惠特尼检验结果 12
图 9 未风化与风化的铅钡玻璃的化学成分分布图 12
图 10 高钾玻璃化学成分 F 检验 p-value 12
图 11 铅钡玻璃化学成分 F 检验 p-value 12
四、 问题二的分析与求解 13
4 . 1 不同类型玻璃分类规律 13
图 12 不同类型玻璃外观特征 13
图 13 不同类型玻璃主要化学成分含量对比 14
图 14 不同类型玻璃化学成分含量差异对比 14
4 . 1 . 3 模型的建立 14
图 15 多层感知机模型 15
4 . 1 . 4 模型的求解与验证 15
图 16 MLP 损失函数与准确率 15
4 . 2 . 1 数据分析 16
图 17 异常点分析和二元分析 16
4 . 2 . 2 Kmeans 16
层次聚类 16
肘部法则 17
图 19 肘部法则 17
4 . 2 . 3 DBSCAN 17
确定半径和核心点 17
k-距离 17
图 20 K-距离确定半径和核心点 18
Calinski-Harabasz 18
4 . 2 . 5 划分结果与分析 19
表 2 聚类算法对比 19
合理性分析 19
图 21 高钾玻璃、铅钡玻璃亚分类结果相关性 19
表 3 亚分类结果相关性 20
敏感性分析 21
五、 问题三的分析与求解 22
5 . 1 数据增强 22
图 22 Smote 处理结果 23
5 . 2 . 2 SVM 23
图 23 SVM 超平面划分 24
图 24 随机森林算法特征重要程度 24
图 25 xgboost 算法特征重要程度 25
图 26 xgboost 算法特征重要程度 27
表 4 未知玻璃类型划分 27
六、 问题四的分析与求解 27
6 . 1 皮尔逊相关系数 27
图 27 高钾玻璃、铅钡玻璃化学成分热力图 28
6 . 2 因子分析 28
6 . 2 . 1 因子分析可行性分析 28
图 28 高钾玻璃、铅钡玻璃巴特利球体检验结果 29
6 . 2 . 2 因子分析结果分析 29
图 29 高钾玻璃因子分析结果图 29
图 30 铅钡玻璃因子分析结果图 29
6 . 3 偏相关分析 30
图 31 高钾玻璃的氧化镁,五氧化二磷和氧化锶偏相关分析结果 30
图 32 铅钡玻璃的氧化钙,氧化锶和氧化铅偏相关分析结果 31
七、 模型的评价与优化 31
7 . 1 模型的评价方式 31
图 33 梯度提升树算法在测试集预测结果 31
7 . 2 模型的优化方法 32
图 34 梯度提升树算法在测试集预测结果 32
附录 A 函数封装–python 源程序 34
一、 问题重述
1 . 1 研究背景
在对古代玻璃的鉴定与分析中,常常需要通过玻璃的化学成分,对其类别进行判断。然而由于风化的影响,导致其化学成分比例与外观特征产生一定的变化,从而影响正确的判断。因此,探究不同类别玻璃化学成分的规律与风化导致的成分比例变化,对文物研究有重要意义。根据现有一批我国古代玻璃制品的相关数据,提出以下问题:
二、 整体思路与模型概述
2. 1 问题分析与模型概述
2 . 1 . 1 问题一的分析
问题一的第一问通过建立决策树模型,将玻璃类型,纹饰以及颜色作为自变量,将玻璃表面的风化程度作为因变量,建立二分类模型,并且通过绘制决策树的方式直观的展示玻璃的类型,纹饰以及颜色对于玻璃的风化程度的影响。
问题一的第二小问首先运用 PCA 降维的方式将多维的化学成分降维到二维,运用
Kmeans 分类方法将玻璃按照种类和风化程度进行分类,得出不同种类的玻璃以及不同风化程度的玻璃其化学成分有显著的不同。通过曼惠特尼检验对总体样本进行检验,得出高钾玻璃和铅钡玻璃在化学成分上的不同,对高钾玻璃和铅钡玻璃分别进行检验,得出高钾玻璃和铅钡玻璃风化前后化学成分的不同。
通过 F 检验对两种玻璃进行检验,筛选出与玻璃的风化程度有显著的线性关系的化学成分,作为预测风化前的化学成分。对缺失的数据运用随机森林回归的方式依次进行填充,完成对风化前玻璃化学成分的预测。
PAR TESTS /M-W= 二氧化硅SiO2 氧化钠Na2O 氧化钾K2O 氧化钙CaO 氧化镁MgO 氧化铝Al2O3 氧化铁Fe2O3 氧化铜CuO 氧化铅PbO 氧化钡BaO 五氧化二磷P2O5 氧化锶SrO 氧化锡SnO2 二氧化硫SO2 BY 表面风化(0 1) /MISSING ANALYSIS. DATASET ACTIVATE 数据集3. NPAR TESTS /M-W= 二氧化硅SiO2 氧化钠Na2O 氧化钾K2O 氧化钙CaO 氧化镁MgO 氧化铝Al2O3 氧化铁Fe2O3 氧化铜CuO 氧化铅PbO 氧化钡BaO 五氧化二磷P2O5 氧化锶SrO 氧化锡SnO2 二氧化硫SO2 BY 表面风化(0 1) /MISSING ANALYSIS. GET DATA /TYPE=XLSX /FILE='C:\Users\86139\Desktop\B22.xlsx' /SHEET=name 'Sheet1' /CELLRANGE=FULL /READNAMES=ON /DATATYPEMIN PERCENTAGE=95.0 /HIDDEN IGNORE=YES. EXECUTE. DATASET NAME 数据集4 WINDOW=FRONT. NPAR TESTS /M-W= 二氧化硅SiO2 氧化钠Na2O 氧化钾K2O 氧化钙CaO 氧化镁MgO 氧化铝Al2O3 氧化铁Fe2O3 氧化铜CuO 氧化铅PbO 氧化钡BaO 五氧化二磷P2O5 氧化锶SrO 氧化锡SnO2 二氧化硫SO2 BY 类型(0 1) /MISSING ANALYSIS.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。