当前位置:   article > 正文

数据分享|逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化...

svm、random forest

原文链接:http://tecdat.cn/?p=24973

世界卫生组织估计全世界每年有 1200 万人死于心脏病。在美国和其他发达国家,一半的死亡是由于心血管疾病点击文末“阅读原文”获取完整代码数据)。

简介

心血管疾病的早期预后可以帮助决定改变高危患者的生活方式,从而减少并发症。本研究旨在查明心脏病最相关/风险因素,并使用机器学习预测总体风险。

相关视频

数据准备 

来源

该数据集查看文末了解数据获取方式来自对居民正在进行的心血管研究。分类目标是预测患者未来是否有 10 年患冠心病 (CHD) 的风险。数据集提供了患者的信息。它包括超过 4,000 条记录和 15 个属性。

变量

每个属性都是一个潜在的风险因素。有人口、行为和医疗风险因素。

人口统计:
• 性别:男性或女性(标量)
• 年龄:患者年龄;(连续 - 尽管记录的年龄已被截断为整数,但年龄的概念是连续的)
行为
• 当前吸烟者:患者是否是当前吸烟者(标量)
• 每天吸烟数:此人一天内平均吸烟的香烟数量。(可以认为是连续的,因为一个人可以拥有任意数量的香烟,甚至半支香烟。)
BP Meds:患者是否服用降压药(标量)
•中风:患者之前是否有中风(标量)
•  Hyp:患者是否患有高血压(标量)
• 糖尿病:患者是否患有糖尿病(标量)
• Tot Chol:总胆固醇水平(连续)
• Sys BP:收缩压(连续)
• Dia BP:舒张压(连续)
BMI:体重指数(连续)
• 心率:心率(连续 - 在医学研究中,心率等变量虽然实际上是离散的,但由于存在大量可能值而被认为是连续的。)
• 葡萄糖:葡萄糖水平(连续)
预测变量(目标)
• 10 年患冠心病 CHD 的风险(二元:“1”表示“是”,“0”表示“否”)

心脏病预测

  1. # 获取数据
  2. rdaa <- read.csv(路径)
  1. # 这边可以考虑增加变量收缩压与舒张压之差、描述收缩压、舒张压与高血压等级的变量
  2. # 看数据结构
  3. str(ata)

1ff728285382af64a4ddc42a86a0f2a5.png

  1. # 考虑增加变量bplevel
  2. raw_data <- sqldf
  3. # 对变量类别进行区分
  4. ra_da <- map
  5. str(ra_da )

91a7057fc9de546008ae2e9e9d36fda6.png

数据预处理

查看和处理缺失值

  1. # 这里我们使用mice包进行缺失值处理
  2. aggr

d818feb5fb688e36ad99a40427e9fbda.jpeg

matplot

00efb452e39bc1dfd6fa9a32515f7fe4.png


点击标题查阅往期内容

f0ebb947c671606dd8dba732950a483e.jpeg

R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

outside_default.png

左右滑动查看更多

outside_default.png

01

92dcb57c12e25fed5c06ed71e8cd70ea.png

02

5b7d16f1a6e9dc208f6020880e6b9ac7.png

03

53bfdcb3ba48c64c46d48a9334ec2e2e.png

04

a8f57e9bf284e86b0bd09f279352e41e.png

由上图可以看出,除了glucose变量,其它变量的缺失比例都低于5%,而glucose变量缺失率超过了10%。对此的处理策略是保留glucose变量的缺失值,直接删除其它变量的缺失值。现在处理glucose的缺失值,

  1. # 处理glucose列
  2. lee_a <- subset & !is.na & !is.na & !is.na & !is
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/825866
推荐阅读
相关标签
  

闽ICP备14008679号