当前位置:   article > 正文

2024湖南省研究生数学建模A题详细思路代码成品文章:使用智能手机记录人体活动状态_第九届湖南省研究生数学建模竞赛 a题:使用智能手机记录人体活动状态

第九届湖南省研究生数学建模竞赛 a题:使用智能手机记录人体活动状态

使用智能手机记录人体活动状态
摘要
随着智能手机的普及,越来越多的手机具备评估用户日常活动消耗热量的功能。比如,华为手机的“华为运动健康”软件可以根据用户每天跑步、步行、骑车、爬高等活动状态来计算其当天消耗的热量。这类运动健康软件主要依赖智能手机记录用户每天活动状态的数据来计算热量消耗。
对于问题一来说,本文对附件1中提供的3名实验人员的运动数据进行分析,旨在对每种活动状态的数据进行分类。首先,对原始数据进行了清洗和标准化处理,接着提取了时间域和频率域的特征,最后通过K-means聚类算法对活动状态进行分类。此外,基于10名实验人员的活动数据,训练了一个随机森林分类器模型以进一步验证分类的准确性和鲁棒性。实验结果表明,随机森林分类器在识别和分类活动状态上具有较高的准确性。
对于问题二,本文基于10名实验人员的活动数据,建立了一个随机森林分类器模型,用于识别和分类人员的活动状态。使用随机森林分类器进行模型训练,通过交叉验证评估模型的准确性。结果显示,模型的整体分类准确率为96%,多数活动状态的F1分数达到1.00,除活动4(步行上楼)和活动5(步行下楼)外,其余活动的分类效果良好。此外,本文还比较了随机森林分类器与K-means聚类算法的分类效果,通过构建聚类类别和活动状态的映射关系,验证了随机森林分类器在分类准确率上的优势。最终,利用训练好的模型对附件3的数据进行判别,进一步验证了模型的有效性。
对于问题三,进一步分析了传感器数据与实验人员年龄、身高、体重之间的关系,使用皮尔逊相关系数进行计算,并绘制了相关性矩阵。随后,利用主成分分析(PCA)降维处理数据,并构建支持向量机(SVM)分类模型,通过传感器数据预测实验人员的特征。SVM模型的整体准确率为51%,分类性能存在差异,部分类别的分类效果较好,部分类别较差。
关键词:SVM、K-means聚类算法、PCA、随机森林、分类

目录
一、 问题重述 3
1.1 问题背景 3
1.2 要解决的问题 3
二、 问题分析 5
三、 问题假设 6
四、 模型原理 7
4.1 相关性分析 7
4.2 随机森林 8
4.3 K-means 8
4.4 SVM 10
五、 模型建立与求解 13
5.1 问题一建模与求解 13
5.2 问题二的建模与求解 19
5.3 问题三的建模与求解 23
六、 模型评价与推广 29
6.1 模型的评价 29
6.1.1模型优点 29
6.1.2模型缺点 29
6.2 模型推广 29
七、 参考文献 31
附录【自行删减】 32

5.1 问题一建模与求解

首先,我们需要对附件1中提供的3名实验人员的运动数据进行分类,这些数据包含每名实验人员的每种活动状态的5组加速度计和陀螺仪数据,但未记录数据所代表的活动状态。我们的目标是对这些数据进行分类,将每种活动状态的数据填入表1中。

由于,原始数据可能存在缺失值和异常值,需要进行清洗和标准化。检查数据中的缺失值和异常值,进行填补或剔除。另外,由于加速度和角速度的量纲不同,需要对数据进行标准化处理,使每个特征具有相同的量纲和分布特性。标准化公式如下:

其中, 是标准化后的值, 是原始值, 是均值, 是标准差。

进一步,观察到原始数据为时序数据,如图所示,而我们需要做的是对每次实验下的活动状态进行分类,因此需要提取有代表性的特征来表征不同的活动状态。

从时序数据的思考出发,我们提取时间域和频率域的特征,确保能够全面反映活动状态的特性。

针对时间域特征,分别构造如下几个特征:

1.均值(Mean):反映数据的集中趋势。

xxxx

除了时域特征之外,我们还考虑了频率域特征,主要从以下两个角度进行提取:傅里叶变换(Fourier Transform)和频率分量能量(Frequency Component Energy)。众所周知,傅里叶变换可以将时域信号转换到频域,提取主要频率分量的能量和峰值频率。傅里叶变换公式如下:


汇总后的结果如下:
在这里插入图片描述

这样一来,我们就可以对每组实验的活动状态进行分类,结合提取的特征进行聚类,以便分类不同的活动状态。由于一共是12种活动状态存在,换句话说即需要分类的类别是已知的,因此我们考虑K-means聚类算法。核心思路即:选择初始聚类中心;计算每个数据点到聚类中心的距离,并将数据点分配到距离最近的聚类中心;更新聚类中心为当前聚类中所有数据点的均值;重复上述步骤,直到聚类中心不再变化或变化较小。

根据K-means的聚类结果,我们可以得到如下结果,如图所示。由于在聚类过程中存在多个特征,在下图中是一第一个特征分量以及第二个特征分量的值来展示最终的聚类结果,然而这使得聚类结果不太直观,从图中也可以看出这个问题。

为了更直观的更好地展示高维特征数据的聚类结果,我们使用了PCA将数据降维到二维。PCA的两个主要成分代表了原始数据的大部分方差:PCA Component 1 和 PCA Component 2:代表了原始数据中的主要特征,保留数据的主要信息。在图中,横轴为PCA Component 1,纵轴为PCA Component 2。

通过PCA降维,我们可以更直观地观察聚类结果。但需要xxx

在这里插入图片描述

5.2 问题二的建模与求解

在问题二中,我们需要基于提供的10名实验人员的活动数据,建立一个判别模型,用于识别和分类人员的活动状态。每个实验人员的每种活动状态记录了5组加速度计和陀螺仪数据,总共提供了600组数据(每人60组)。

首先,对于附件2给出的数据,我们采取和问题一中相同的方式,提取出其中的时间域以及空间域特征,确保能够全面反映活动状态的特性。共得到600条特征数据,如图所示。

在提取了特征数据之后,我们使用随机森林分类器(Random Forest Classifier)来训练模型。随机森林是基于决策树的集成学习方法,通过构建多棵决策树并结合其结果,提高分类准确性和鲁棒性。为了验证验证分类模型的准确性和可靠性,采用了交叉验证(Cross-validation)以及 准确率(Accuracy)、召回率(Recall)、精确率(Precision)和F1值(F1 Score)

模型在活动4(步行上楼)和活动5(步行下楼)的分类上存在一定困难,有部分样本被错误分类为其他活动状态。活动6(向前跑)也存在少量误分类,被误分类为活动7(跳跃)。

在这里插入图片描述

在构建好我们的判别模型之后,结合问题一中的K-means聚类算法,我们对两种模型结果的准确率进行比较。由于K-means算法可以将数据分为12个聚类,却无法具体表明这12个类分别对应的是哪一种活动状态,因此我们需要构建一个聚类类别和活动状态的映射。

从聚类角度考虑,构建类别的向量距离越接近,说明这些向量越相似,因此,从聚类结果上来看,构建聚类类别和活动状态类别的二元组,找出二元组数量最多的作为聚类类别和活动状态的映射关系。下图展示了对附件2数据进行聚类后的结果。

找出数量最多的二元组,结果如上,以及其对应的数量。其中二元组由(活动状态类别,聚类类别构成),可以看到活动状态9,11,8,12都被错误的视为同一种活动类型了,可能是其提取的特征中结果相对比较接近。

5.3 问题三的建模与求解

问题三首先要求我们比较不同人员在同一活动状态下的传感器数据,判断是否存在显著差异。因此我们需要对已经的十三位实验人员的行为进行分析,比较他们在同一种活动下收集到的传感器数据是否有所不同。为此,我们对附件1、附件2收集到的数据进行整合,根据问题一的方法,提取出其中的时间域特征以及频率特征信息,总合在如下的表中。

下面,使用方差分析(ANOVA)来检测不同人员的传感器数据是否存在显著差异。

下一步,通过传感器数据预测实验人员的特征,实现人员画像。降维处理,将高维传感器数据映射到低维空间,便于后续分析和可视化。主成分计算公式:

其中, 表示降维后的数据矩阵, 表示原始数据矩阵,表示特征向量矩阵。降维后的数据分布如图所示:

进一步构建分类模型,通过传感器数据预测实验人员的特征。采用分类算法支持向量机(SVM)。分类模型的训练和预测:

其中, 表示预测结果, 表示分类模型, 表示输入的传感器数据。

SVM的预测结果如下图所示,

xxx

参考内容: https://docs.qq.com/doc/DVXRCWllOWVRCcFZC

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/942694
推荐阅读
相关标签
  

闽ICP备14008679号