项目实战3：Kaggle糖尿病预测_diabetsdatabase

作者：盐析白兔 | 2024-06-04 09:14:05

踩

diabetsdatabase

一、数据介绍

本章建模的数据是从kaggle网站上下载的印第安人糖尿病数据库。

数据集介绍：该数据集最初来自美国国家糖尿病、消化和肾脏疾病研究所。目的是根据数据集中包含的某些诊断测量值，诊断性地预测患者是否患有糖尿病。这里的所有患者都是至少 21 岁的印第安血统的女性。数据集由几个医学预测变量和一个目标变量组成。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。

图1 糖尿病数据库（数据预览）

数据集中各变量的含义介绍如下：

Pregnancies：怀孕次数

Glucose：口服葡萄糖耐量试验中 2 小时的血浆葡萄糖浓度

BloodPressure：舒张压 (mm Hg)

SkinThickness:三头肌皮褶厚度（mm）

Insulin:2 小时血清胰岛素 (mu U/ml)

BMI:体重指数（体重公斤/（身高米）^2）

DiabetesPedigreeFunction:糖尿病谱系功能

Age:年龄（岁）

Outcome:目标变量（0 或 1）数据集中268 为 1，500为 0，0表示不患糖尿病、1表示患糖尿病。

（1）读取csv数据

（2）将字符串类型的数据变成浮点型

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/671184