当前位置:   article > 正文

【Python机器学习系列】建立XGBoost模型预测心脏疾病(完整实现过程)_python 怎么应用构建好的xgboost模型预测新数据

python 怎么应用构建好的xgboost模型预测新数据

一、引言

前文回顾:

一文彻底搞懂机器学习中的归一化与反归一化问题

【Python机器学习系列】一文彻底搞懂机器学习中表格数据的输入形式(理论+源码)

【Python机器学习系列】一文带你了解机器学习中的Pipeline管道机制(理论+源码)

【Python机器学习系列】一文搞懂机器学习中的转换器和估计器(附案例)

【Python机器学习系列】一文讲透机器学习中的K折交叉验证(源码)

【Python机器学习系列】拟合和回归傻傻分不清?一文带你彻底搞懂它

【Python机器学习系列】建立决策树模型预测心脏疾病(完整实现过程)

【Python机器学习系列】建立支持向量机模型预测心脏疾病(完整实现过程)

【Python机器学习系列】建立逻辑回归模型预测心脏疾病(完整实现过程)

【Python机器学习系列】建立KNN模型预测心脏疾病(完整实现过程)

【Python机器学习系列】建立随机森林模型预测心脏疾病(完整实现过程)

【Python机器学习系列】建立梯度提升模型预测心脏疾病(完整实现过程)

对于表格数据,一套完整的机器学习建模流程如下:

图片

       针对不同的数据集,有些步骤不适用即不需要做,其中橘红色框为必要步骤,由于数据质量较高,本文有些步骤跳过了,跳过的步骤将单独出文章总结!同时欢迎大家关注翻看我之前的一些相关文章。

      XGBoost(eXtreme Gradient Boosting)极致梯度提升,是一种基于GBDT的算法或者说工程实现。XGBoost通过集成多个决策树模型来进行预测,并通过梯度提升算法不断优化模型的性能。XGBoost的基本思想和GBDT相同,但是做了一些优化,比如二阶导数使损失函数更精准;正则项避免树过拟合;Block存储可以并行计算等。本文利用xgboost实现了基于心脏疾病数据集建立XGBoost分类模型对心脏疾病患者进行分类预测的完整过程。

  1. # pip install xgboost
  2. from xgboost.sklearn import XGBClassifier

二、实现过程

1、准备数据

  1. data = pd.read_csv(r'Dataset.csv')
  2. df = pd.DataFrame(data)

df:

图片

数据基本信息:

  1. print(df.head())
  2. print(df.info())
  3. print(df.shape)
  4. print(df.columns)
  5. print(df.dtypes)
  6. cat_cols = [col for col in df.columns if df[col].dtype == "object"] # 类别型变量名
  7. num_cols = [col for col in df.columns if df[col].dtype != "object"] # 数值型变量名

2、提取特征变量和目标变量

  1. target = 'target'
  2. features = df.columns.drop(target)
  3. print(data["target"].value_counts()) # 顺便查看一下样本是否平衡

3、数据集划分

  1. # df = shuffle(df)
  2. X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=0.2, random_state=0)

4、模型的构建与训练

  1. # 模型的构建与训练
  2. model = xgb.XGBClassifier(n_estimators=100, max_depth=10)
  3. model.fit(X_train, y_train)

参数详解:

  1. import xgboost as xgb
  2. # 参数
  3. class XGBModel(XGBModelBase):
  4. # pylint: disable=too-many-arguments, too-many-instance-attributes, missing-docstring
  5. def __init__(
  6. self,
  7. max_depth: Optional[int] = None,
  8. max_leaves: Optional[int] = None,
  9. max_bin: Optional[int] = None,
  10. grow_policy: Optional[str] = None,
  11. learning_rate: Optional[float] = None,
  12. n_estimators: int = 100,
  13. verbosity: Optional[int] = None,
  14. objective: _SklObjective = None,
  15. booster: Optional[str] = None,
  16. tree_method: Optional[str] = None,
  17. n_jobs: Optional[int] = None,
  18. gamma: Optional[float] = None,
  19. min_child_weight: Optional[float] = None,
  20. max_delta_step: Optional[float] = None,
  21. subsample: Optional[float] = None,
  22. sampling_method: Optional[str] = None,
  23. colsample_bytree: Optional[float] = None,
  24. colsample_bylevel: Optional[float] = None,
  25. colsample_bynode: Optional[float] = None,
  26. reg_alpha: Optional[float] = None,
  27. reg_lambda: Optional[float] = None,
  28. scale_pos_weight: Optional[float] = None,
  29. base_score: Optional[float] = None,
  30. random_state: Optional[Union[np.random.RandomState, int]] = None,
  31. missing: float = np.nan,
  32. num_parallel_tree: Optional[int] = None,
  33. monotone_constraints: Optional[Union[Dict[str, int], str]] = None,
  34. interaction_constraints: Optional[Union[str, Sequence[Sequence[str]]]] = None,
  35. importance_type: Optional[str] = None,
  36. gpu_id: Optional[int] = None,
  37. validate_parameters: Optional[bool] = None,
  38. predictor: Optional[str] = None,
  39. enable_categorical: bool = False,
  40. feature_types: FeatureTypes = None,
  41. max_cat_to_onehot: Optional[int] = None,
  42. max_cat_threshold: Optional[int] = None,
  43. eval_metric: Optional[Union[str, List[str], Callable]] = None,
  44. early_stopping_rounds: Optional[int] = None,
  45. callbacks: Optional[List[TrainingCallback]] = None,
  46. **kwargs: Any,
  47. ) -> None:

5、模型的推理与评价

  1. y_pred = model.predict(X_test)
  2. y_scores = model.predict_proba(X_test)
  3. acc = accuracy_score(y_test, y_pred) # 准确率acc
  4. cm = confusion_matrix(y_test, y_pred) # 混淆矩阵
  5. cr = classification_report(y_test, y_pred) # 分类报告
  6. fpr, tpr, thresholds = roc_curve(y_test, y_scores[:, 1], pos_label=1) # 计算ROC曲线和AUC值,绘制ROC曲线
  7. roc_auc = auc(fpr, tpr)
  8. plt.figure()
  9. plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
  10. plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
  11. plt.xlim([0.0, 1.0])
  12. plt.ylim([0.0, 1.05])
  13. plt.xlabel('False Positive Rate')
  14. plt.ylabel('True Positive Rate')
  15. plt.title('Receiver Operating Characteristic')
  16. plt.legend(loc="lower right")
  17. plt.show()

cm:

图片

cr:

图片

ROC:

图片

作者简介:

读研期间发表6篇SCI数据挖掘相关论文,现在某研究院从事数据算法相关科研工作,结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创,以最简单的方式理解和学习,关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/371871
推荐阅读
相关标签
  

闽ICP备14008679号