当前位置:   article > 正文

基于机器学习算法的糖尿病预测模型研究论文研读笔记

基于机器学习算法的糖尿病预测模型研究论文研读笔记

ROC(受试者工作特征曲线):反映敏感性和特异性这两个连续变量的综合指标。

AUC代表ROC曲线下方面积大小,一般在0.5~之间,越接近1越好。

AUC计算公式:AUC =(1-(FP/(FN+TN)*(FN/(TP+FP))/2))/2

AUC能较好得评估预测值和真实值之间的差异。

常见的预测方法如下:

1. 回归预测法(适合中长期的预测,需大量的样本);

2. 时间序列预测法(适合短期预测);

3. 灰色系统预测法(属于时间序列预测法的一种,适用于样本量较少、信息不全的样本);

4. markov预测法(适合于慢性疾病的预测);

5.神经网络预测法(一种多元线性模型,有很强的包容性,但容易陷入局部极小点)。

人工神经网络特点:

1. 自学习能力;

2. 联想存储能力;

3. 高速寻找优化解的能力。

SVM(处理样本集不均衡的情况时的效果不好)的核函数有如下四种:

1. 线性核函数(LK);

2. 多项式核函数(PK);

3. 径向基核函数(RBF);

4. Sigmoid核函数。

解决不均衡数据问题的三种办法:

1. 改变数据的分布;

2. 构思新的分类方法;

3. 确定新分类器的评比标准。

强弱学习期器之间可以互相转化。


AIC(赤池信息量准则):一种评价统计模型拟合程度的标准

AIC =(2K-2L)/ N          K: 模型中参数的个数;L: 对数似然值。

似然值越大代表模型准确度越高,参数个数越小,代表模型简单。

似然值越大,AIC越小;参数个数少,AIC越小。


逐步回归算法分为前向和后向。


将样本集分为70%训练集(用于训练样本)、20%测试集(检验预测效果)、10%独立样本集(用来独立地检验几种模型在样本上的预测情况,更加能体现模型的泛化能力)。


处理不平衡数据集在支持向量中机中方法问题:

1. 加入样本权重比作为参数;

2. 为少数和多数类分开定惩罚因子,再考虑类别中调整模型;

3. 通过在高维空间改变分类超平面的位置来改进。


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/568522
推荐阅读
相关标签
  

闽ICP备14008679号