赞
踩
关联比赛: 天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测
GDM(妊娠期糖尿病)是仅限于妊娠期发生的糖尿病,多发生在坏孕3月后,分娩后大部分恢复正常,GDM孕妇产后5-16年,大约有17-63%发展成2型糖尿病;再次妊娠时GDM的复发率高达52-69%。
从数据挖掘、机器学习的方法上超早期精准评估GDM患病的风险,制定精准预防方案,保障母胎安全,降低GDM发病率。
复赛的主要内容是利用主办方提供的包含84个特征、1个0-1标签的1000条妊娠糖尿病样本,通过数据挖掘和机器学习的方法预测出有高风险患GDM的患者。
通过选手预测的妊娠糖尿病和实际正确的情况计算f1值。f1值取决于准确度和召回率,公式为:
离散型变量的空值用null填充,连续型变量用平均值填充
2.2 对离散变量进行编码
所有的SNP* , BMI分类, ACEID一共58个离散变量进行进行编码,得到SNP1_1, SNP1_2, SNP1_3, SNP1_null,SNP2_1, SNP2_2, SNP2_3, SNP2_null ……BMI分类_1, BMI分类_2, ACEID_1, ACEID_2。
2.3 线下线上的一致性
这是一个有监督的二分类问题,每个样本的预测结果为一个概率值,我们需要从中选取一个阈值来区分是否得了妊娠糖尿病
F1
AUC
4.1 特征重要性排序
4.2 VAR00007
VAR00007越高越容易患GDM,怀疑是胰岛素抵抗指数(HOMA-IR)[1]
4.2 RBP4(视黄醇结合蛋白-4)
RBP4是视黄醇转运载体,主要由肝脏和脂肪组织分泌。其作为脂肪细胞因子参与了肥胖、胰岛素抵抗,妊娠本身即可导致血清RBP4的升高,升高的RBP4可能参与了妊娠胰岛素抵抗的发生,并且影响了妊娠期妇女的糖、脂代谢[2].
4.3 TG(甘油三酯)、孕前体重、孕前BMI和BMI分类
超重、肥胖的孕妇容易患GDM[3].
4.4 年龄、孕次、产次
再次妊娠时GDM的复发率更高[4]
4.5 DM家族史
具有DM家族史的孕妇GDM的发病率更高[3]
4.6 hsCRP(超敏C-反应蛋白)、wbc(白细胞)
当前身体状况偏差容易也会对GDM发病率升高[4]
4.7 收缩压、舒张压
血压偏高的孕妇GDM的发病率偏高[5]
4.8 SNP(单核苷酸多态性)的缺失
SNP5、SNP46缺失GDM发病率偏高
SNP20、SNP53缺失GDM发病率偏低
4.9 SNP34和SNP37
SNP34或者SNP37为2时GDM发病率偏高,SNP37为3时GDM发病率偏低. GDM与胰岛素抵抗和胰岛B细胞功能障碍有关,因此影响GDM的是那些调节胰岛素的功能和分泌的蛋白质,如钙蛋白酶基因calpain 10(CAPN10)的SNP-43、-63[6, 7]。
4.9 SNP34和SNP37联合特征
CAPN-10基因SNP-43、-63及其单倍型组合[6, 7],SNP34和SNP37同时为2时GDM发病率为100%.
4.10 弱特征
AST和ALT和GDM没有直接联系
另外Cr(肌酐)、BUN(血尿素氮)、CHO(胆固醇)、HDLC(高密度脂蛋白胆固醇)、LDLC(低密度脂蛋白胆固醇)、ApoA1(载脂蛋白A1)、ApoB(载脂蛋白B)特征重要性也均很低。
4.11 特征重要性总结
参考文献:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。