糖尿病预测模型-Pima印第安人数据集-论文_企业科研_pima indians diabetes database写的论文

作者：菜鸟追梦旅行 | 2024-06-04 09:11:23

踩

pima indians diabetes database写的论文

糖尿病概述

糖尿病有一型和二型，是由于胰腺分泌胰岛素紊乱或人体无法有效利用其产生的胰岛素而发生的一种慢性疾病，是２１世纪人类面临的健康问题之一．糖尿病伴有弥漫性并发症，其包括心血管病变、肾脏疾病、高血压、中风等、眼部疾病、下肢截肢上百种，由此增加了过早死亡的风险．因此，糖尿病防治形势十分严峻.

下右图为糖尿病视网膜病变

2019年估算中国糖尿病患病率排名世界第二

中国糖尿病患者数量位居世界第一。中国是糖尿病最大药物研发市场。越来越多年轻人也加入糖尿病市场，成为药企摇钱树。

下图为中国糖尿病患病率历史数据

糖尿病给经济带来巨大负担
糖尿病也给经济带来了巨大的负担，每年诊断出的糖尿病成本约为 3270 亿美元，而未确诊的糖尿病和前驱糖尿病的总成本接近 4000 亿美元。

糖尿病可预防

虽然糖尿病无法治愈，但减肥、健康饮食、积极运动和接受药物治疗等策略可以减轻这种疾病对许多患者的危害。早期诊断可以改变生活方式和更有效的治疗，使糖尿病风险预测模型成为公共和公共卫生官员的重要工具。

糖尿病致病因子多样化
虽然有不同类型的糖尿病，但 II 型糖尿病是最常见的形式，其患病率因年龄、教育程度、收入、地点、种族和其他健康的社会决定因素而异。这种疾病的大部分负担也落在社会经济地位较低的人身上。
本实验就是通过建立人工智能机器学习模型，预测糖尿病概率和挖掘糖尿病重要致病因子。

糖尿病建模数据集介绍
糖尿病数据集来源Pima印第安人糖尿病数据集。数据集包含769条数据，9个变量。变量如下：妊娠, 血糖,血压,皮肤厚度,胰岛素,BMI,糖尿病系统功能,年龄,是否为糖尿病患者。

本研究的实验数据来自ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ，ＵＧＩ机器学习数据库中的ＰｉｍａＩｎｄｉａｎＤｉａｂｅｔｅｓ数据集，其研究对象是亚利桑那州凤凰城附近的皮马印第安人．该数据集共有７６８条数据项，包含８个医学预测变量和１个结果变量，其具体属性包括：怀孕次数（Ｐｒｅｇｎａｎｃｉｅｓ）、血糖浓度（Ｇｌｕｃｏｓｅ）、年龄（Ａｇｅ）、血压（ＢｌｏｏｄＰｒｅｓｓｕｒｅ）、肱三头肌皮脂厚度（ＳｋｉｎＴｈｉｃｋｎｅｓｓ）、胰岛素含量（Ｉｎｓｕｌｉｎ）、身体质量指数（ＢＭＩ）、糖尿病遗传系数（ＤｉａｂｅｔｅｓＰｅｄｉｇｒｅｅＦｕｎｃｔｉｏｎ）和结果（Ｏｕｔｃｏｍｅ，１代表患糖尿病，０代表未患糖尿病）．在ＰｉｍａＩｎｄｉａｎＤｉａｂｅｔｅｓ数据集中，Ｏｕｔｃｏｍｅ为１的有２６８例，即为糖尿病患者人数；Ｏｕｔｃｏｍｅ为０的有５００例，即为未患有糖尿病的人数．

模型价值和意义

通过我们建立的人工智能机器学习预测模型，可实现以下一些研究问题：
1.模型能准确预测个人是否患有糖尿病。
2.模型能挖掘哪些风险因素最能预测糖尿病风险。
3.我们能使用风险因素的一个子集来准确预测一个人是否患有糖尿病。
4.我们可以使用筛选几个重要糖尿病致病特征，然后组合创建为一个简短的问题，以准确预测某人是否可能患有糖尿病或是否有糖尿病的高风险。