赞
踩
本章建模的数据是从kaggle网站上下载的印第安人糖尿病数据库。
数据链接:https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database
数据集介绍:该数据集最初来自美国国家糖尿病、消化和肾脏疾病研究所。目的是根据数据集中包含的某些诊断测量值,诊断性地预测患者是否患有糖尿病。这里的所有患者都是至少 21 岁的印第安血统的女性。数据集由几个医学预测变量和一个目标变量组成。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。
图1 糖尿病数据库(数据预览)
数据集中各变量的含义介绍如下:
Pregnancies:怀孕次数
Glucose:口服葡萄糖耐量试验中 2 小时的血浆葡萄糖浓度
BloodPressure:舒张压 (mm Hg)
SkinThickness:三头肌皮褶厚度(mm)
Insulin:2 小时血清胰岛素 (mu U/ml)
BMI:体重指数(体重公斤/(身高米)^2)
DiabetesPedigreeFunction:糖尿病谱系功能
Age:年龄(岁)
Outcome:目标变量(0 或 1) 数据集中268 为 1,500为 0,0表示不患糖尿病、1表示患糖尿病。
(1)读取csv数据
(2)将字符串类型的数据变成浮点型
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。