2.1  正则化

  实际上,Xgboost是以“正则化提升(regularized boosting)” 技术而闻名。Xgboost在代价函数里加入了正则项,用于控制模型的复杂度。正则项里包含了树的叶子节点个数,每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲,正则项降低了模型的variance,使学习出来的模型更加简单,防止过拟合,这也是Xgboost优于传统GBDT的一个特征

2.2  并行处理



2.3  灵活性


2.4  缺失值处理


2.5  剪枝


2.6  内置交叉验证


# 常规参数

  • booster
    • gbtree 树模型做为基分类器(默认)
    • gbliner 线性模型做为基分类器
  • silent
    • silent=0时,不输出中间过程(默认)
    • silent=1时,输出中间过程
  • nthread
    • nthread=-1时,使用全部CPU进行并行运算(默认)
    • nthread=1时,使用1个CPU进行运算。
  • scale_pos_weight
    • 正样本的权重,在二分类任务中,当正负样本比例失衡时,设置正样本的权重,模型效果更好。例如,当正负样本比例为1:10时,scale_pos_weight=10。

# 模型参数

  • n_estimatores
    • 含义:总共迭代的次数,即决策树的个数
    • 调参:
  • early_stopping_rounds
    • 含义:在验证集上,当连续n次迭代,分数没有提高后,提前终止训练。
    • 调参:防止overfitting。
  • max_depth
    • 含义:树的深度,默认值为6,典型值3-10。和GBM中的参数相同,这个值为树的最大深度。 这个值也是用来避免过拟合的。max_depth越大,模型会学到更具体更局部的样本。 需要使用CV函数来进行调优。
    • 调参:值越大,越容易过拟合;值越小,越容易欠拟合。
  • min_child_weight
    • 含义:默认值为1,。决定最小叶子节点样本权重和。 和GBM的 min_child_leaf 参数类似,但不完全一样。XGBoost的这个参数是最小样本权重的和,而GBM参数是最小样本总数。 这个参数用于避免过拟合。当它的值较大时,可以避免模型学习到局部的特殊样本。 但是如果这个值过高,会导致欠拟合。这个参数需要使用CV来调整。
    • 调参:值越大,越容易欠拟合;值越小,越容易过拟合(值较大时,避免模型学习到局部的特殊样本)。
  • max_delta_step

    • 含义:这参数限制每棵树权重改变的最大步长。如果这个参数的值为0,那就意味着没有约束。如果它被赋予了某个正值,那么它会让这个算法更加保守。 通常,这个参数不需要设置。但是当各类别的样本十分不平衡时,它对逻辑回归是很有帮助的。 这个参数一般用不到,但是你可以挖掘出来它更多的用处。

  • subsample
    • 含义:训练每棵树时,使用的数据占全部训练集的比例。默认值为1,典型值为0.5-1。和GBM中的subsample参数一模一样。这个参数控制对于每棵树,随机采样的比例。 减小这个参数的值,算法会更加保守,避免过拟合。但是,如果这个值设置得过小,它可能会导致欠拟合。 典型值:0.5-1
    • 调参:防止overfitting。
  • colsample_bytree , colsample_bylevel , colsample_bynode [默认 =1] 这是对列的子采样参数家族,所有的colsample_by* 参数的范围均为(0,1),默认值为1.
  • colsample_bytree
    • 含义:训练每棵树时,使用的特征占全部特征的比例。默认值为1,典型值为0.5-1。和GBM里面的max_features参数类似。用来控制每棵随机采样的列数的占比(每一列是一个特征)。 典型值:0.5-1
    • 调参:防止overfitting。
  • colsample_bylevel

    • 用来控制树的每一级的每一次分裂,对列数的采样的占比。 我个人一般不太用这个参数,因为subsample参数和colsample_bytree参数可以起到相同的作用。但是如果感兴趣,可以挖掘这个参数更多的用处。

  • colsample_bynode

    • 是每个节点(拆分)的列的子采样率。每次评估新的拆分时,都会发生一次子采样。列是从为当前级别选择的列集中进行二次采样的。

# 学习任务参数

  • learning_rate
    • 含义:学习率,控制每次迭代更新权重时的步长,默认0.3。
    • 调参:值越小,训练越慢。
    • 典型值为0.01-0.2。
  • objective 目标函数
    • 回归任务
      • reg:linear (默认)
      • reg:logistic
    • 二分类
      • binary:logistic     概率 
      • binary:logitraw   类别
    • 多分类
      • multi:softmax  num_class=n   返回类别
      • multi:softprob   num_class=n  返回概率
    • rank:pairwise
  • eval_metric
  • 校验数据所需要的评价指标,不同的目标函数将会有缺省的评价指标(rmse for regression, and error for classification, mean average precision for ranking)-

  • 用户可以添加多种评价指标,对于Python用户要以list传递参数对给程序,而不是map参数list参数不会覆盖’eval_metric’

  • 可供的选择如下:

    • 回归任务(默认rmse)
      • rmse--均方根误差
      • mae--平均绝对误差
    • 分类任务(默认error)
      • auc--roc曲线下面积
      • error--错误率(二分类)
      • merror--错误率(多分类)
      • logloss--负对数似然函数(二分类)
      • mlogloss--负对数似然函数(多分类)
  • gamma
    • 惩罚项系数,指定节点分裂所需的最小损失函数下降值。在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。 这个参数的值越大,算法越保守。这个参数的值和损失函数息息相关,所以是需要调整的。
    • 调参:
  • alpha
    • L1正则化系数,默认为1
  • lambda
    • L2正则化系数,默认为1  
    • 用于处理XGBoost的正则化部分。通常不使用,但可以用来降低过拟合
  • lambda_bias
    • 在偏置上的L2正则。缺省值为0(在L1上没有偏置项的正则,因为L1偏置时不需要)

# 代码主要函数:

  • 载入数据:load_digits()
  • 数据拆分:train_test_split()
  • 建立模型:XGBClassifier()
  • 模型训练:fit()
  • 模型预测:predict()
  • 性能度量:accuracy_score()
  • 特征重要性:plot_importance()


  Xgboost有两大类接口:Xgboost原生接口 和sklearn接口,并且Xgboost能够实现分类回归两种任务。下面对这四种情况做以解析。


  1. from sklearn.datasets import load_iris
  2. import xgboost as xgb
  3. from xgboost import plot_importance
  4. import matplotlib.pyplot as plt
  5. from sklearn.model_selection import train_test_split
  6. from sklearn.metrics import accuracy_score # 准确率
  7. # 记载样本数据集
  8. iris = load_iris()
  9. X,y = iris.data,iris.target
  10. # 数据集分割
  11. X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=123457)
  12. # 算法参数
  13. params = {
  14. 'booster':'gbtree',
  15. 'objective':'multi:softmax',
  16. 'num_class':3,
  17. 'gamma':0.1,
  18. 'max_depth':6,
  19. 'lambda':2,
  20. 'subsample':0.7,
  21. 'colsample_bytree':0.7,
  22. 'min_child_weight':3,
  23. 'slient':1,
  24. 'eta':0.1,
  25. 'seed':1000,
  26. 'nthread':4,
  27. }
  28. plst = params.items()
  29. # 生成数据集格式
  30. dtrain = xgb.DMatrix(X_train,y_train)
  31. num_rounds = 500
  32. # xgboost模型训练
  33. model = xgb.train(plst,dtrain,num_rounds)
  34. # 对测试集进行预测
  35. dtest = xgb.DMatrix(X_test)
  36. y_pred = model.predict(dtest)
  37. # 计算准确率
  38. accuracy = accuracy_score(y_test,y_pred)
  39. print('accuarcy:%.2f%%'%(accuracy*100))
  40. # 显示重要特征
  41. plot_importance(model)
  42. plt.show()


  1. import xgboost as xgb
  2. from xgboost import plot_importance
  3. from matplotlib import pyplot as plt
  4. from sklearn.model_selection import train_test_split
  5. from sklearn.datasets import load_boston
  6. from sklearn.metrics import mean_squared_error
  7. # 加载数据集,此数据集时做回归的
  8. boston = load_boston()
  9. X,y = boston.data,boston.target
  10. # Xgboost训练过程
  11. X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)
  12. # 算法参数
  13. params = {
  14. 'booster':'gbtree',
  15. 'objective':'reg:gamma',
  16. 'gamma':0.1,
  17. 'max_depth':5,
  18. 'lambda':3,
  19. 'subsample':0.7,
  20. 'colsample_bytree':0.7,
  21. 'min_child_weight':3,
  22. 'slient':1,
  23. 'eta':0.1,
  24. 'seed':1000,
  25. 'nthread':4,
  26. }
  27. dtrain = xgb.DMatrix(X_train,y_train)
  28. num_rounds = 300
  29. plst = params.items()
  30. model = xgb.train(plst,dtrain,num_rounds)
  31. # 对测试集进行预测
  32. dtest = xgb.DMatrix(X_test)
  33. ans = model.predict(dtest)
  34. # 显示重要特征
  35. plot_importance(model)
  36. plt.show()


  1. from sklearn.datasets import load_iris
  2. import xgboost as xgb
  3. from xgboost import plot_importance
  4. from matplotlib import pyplot as plt
  5. from sklearn.model_selection import train_test_split
  6. from sklearn.metrics import accuracy_score
  7. # 加载样本数据集
  8. iris = load_iris()
  9. X,y = iris.data,iris.target
  10. X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)
  11. # 训练模型
  12. model = xgb.XGBClassifier(max_depth=5,learning_rate=0.1,n_estimators=160,silent=True,objective='multi:softmax')
  13. model.fit(X_train,y_train)
  14. # 对测试集进行预测
  15. y_pred = model.predict(X_test)
  16. #计算准确率
  17. accuracy = accuracy_score(y_test,y_pred)
  18. print('accuracy:%2.f%%'%(accuracy*100))
  19. # 显示重要特征
  20. plot_importance(model)
  21. plt.show()
  1. # -*- coding: utf-8 -*-
  2. """
  3. ###############################################################################
  4. # 作者:wanglei5205
  5. # 邮箱:wanglei5205@126.com
  6. # 代码:http://github.com/wanglei5205
  7. # 博客:http://cnblogs.com/wanglei5205
  8. # 目的:学习xgboost的XGBClassifier函数
  9. # 官方API文档:http://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.training
  10. ###############################################################################
  11. """
  12. ### load module
  13. import matplotlib.pyplot as plt
  14. from sklearn import datasets
  15. from sklearn.model_selection import train_test_split
  16. from sklearn.metrics import accuracy_score
  17. from xgboost import XGBClassifier
  18. from xgboost import plot_importance
  19. ### load datasets
  20. digits = datasets.load_digits()
  21. ### data analysis
  22. print(digits.data.shape)
  23. print(digits.target.shape)
  24. ### data split
  25. x_train,x_test,y_train,y_test = train_test_split(digits.data,
  26. digits.target,
  27. test_size = 0.3,
  28. random_state = 33)
  29. ### fit model for train data
  30. model = XGBClassifier(learning_rate=0.1,
  31. n_estimators=1000, # 树的个数--1000棵树建立xgboost
  32. max_depth=6, # 树的深度
  33. min_child_weight = 1, # 叶子节点最小权重
  34. gamma=0., # 惩罚项中叶子结点个数前的参数
  35. subsample=0.8, # 随机选择80%样本建立决策树
  36. colsample_btree=0.8, # 随机选择80%特征建立决策树
  37. objective='multi:softmax', # 指定损失函数
  38. scale_pos_weight=1, # 解决样本个数不平衡的问题
  39. random_state=27 # 随机数
  40. )
  41. model.fit(x_train,
  42. y_train,
  43. eval_set = [(x_test,y_test)],
  44. eval_metric = "mlogloss",
  45. early_stopping_rounds = 10,
  46. verbose = True)
  47. ### plot feature importance
  48. fig,ax = plt.subplots(figsize=(15,15))
  49. plot_importance(model,
  50. height=0.5,
  51. ax=ax,
  52. max_num_features=64)
  53. plt.show()
  54. ### make prediction for test data
  55. y_pred = model.predict(x_test)
  56. ### model evaluate
  57. accuracy = accuracy_score(y_test,y_pred)
  58. print("accuarcy: %.2f%%" % (accuracy*100.0))
  59. """
  60. 95.74%
  61. """



  1. import xgboost as xgb
  2. from xgboost import plot_importance
  3. from matplotlib import pyplot as plt
  4. from sklearn.model_selection import train_test_split
  5. from sklearn.datasets import load_boston
  6. # 导入数据集
  7. boston = load_boston()
  8. X ,y = boston.data,boston.target
  9. # Xgboost训练过程
  10. X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)
  11. model = xgb.XGBRegressor(max_depth=5,learning_rate=0.1,n_estimators=160,silent=True,objective='reg:gamma')
  12. model.fit(X_train,y_train)
  13. # 对测试集进行预测
  14. ans = model.predict(X_test)
  15. # 显示重要特征
  16. plot_importance(model)
  17. plt.show()



  1,选择较高的学习速率(learning rate)。一般情况下,学习速率的值为0.1.但是,对于不同的问题,理想的学习速率有时候会在0.05~0.3之间波动。选择对应于此学习速率的理想决策树数量。Xgboost有一个很有用的函数“cv”,这个函数可以在每一次迭代中使用交叉验证,并返回理想的决策树数量。

  2,对于给定的学习速率和决策树数量,进行决策树特定参数调优(max_depth , min_child_weight , gamma , subsample,colsample_bytree)在确定一棵树的过程中,我们可以选择不同的参数。

  3,Xgboost的正则化参数的调优。(lambda , alpha)。这些参数可以降低模型的复杂度,从而提高模型的表现。





  • 1,max_depth = 5:这个参数的取值最好在3-10之间,我选的起始值为5,但是你可以选择其他的值。起始值在4-6之间都是不错的选择。
  • 2,min_child_weight = 1 :这里选择了一个比较小的值,因为这是一个极不平衡的分类问题。因此,某些叶子节点下的值会比较小。
  • 3,gamma = 0 :起始值也可以选择其它比较小的值,在0.1到0.2之间就可以,这个参数后继也是要调整的。
  • 4,subsample,colsample_bytree = 0.8  这个是最常见的初始值了。典型值的范围在0.5-0.9之间。
  • 5,scale_pos_weight =1 这个值时因为类别十分不平衡。


  1. def modelfit(alg, dtrain, predictors,useTrainCV=True, cv_folds=5, early_stopping_rounds=50):
  2. if useTrainCV:
  3. xgb_param = alg.get_xgb_params()
  4. xgtrain = xgb.DMatrix(dtrain[predictors].values, label=dtrain[target].values)
  5. cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
  6. metrics='auc', early_stopping_rounds=early_stopping_rounds, show_progress=False)
  7. alg.set_params(n_estimators=cvresult.shape[0])
  8. #Fit the algorithm on the data
  9. alg.fit(dtrain[predictors], dtrain['Disbursed'],eval_metric='auc')
  10. #Predict training set:
  11. dtrain_predictions = alg.predict(dtrain[predictors])
  12. dtrain_predprob = alg.predict_proba(dtrain[predictors])[:,1]
  13. #Print model report:
  14. print "\nModel Report"
  15. print "Accuracy : %.4g" % metrics.accuracy_score(dtrain['Disbursed'].values, dtrain_predictions)
  16. print "AUC Score (Train): %f" % metrics.roc_auc_score(dtrain['Disbursed'], dtrain_predprob)
  17. feat_imp = pd.Series(alg.booster().get_fscore()).sort_values(ascending=False)
  18. feat_imp.plot(kind='bar', title='Feature Importances')
  19. plt.ylabel('Feature Importance Score')
  1. #Choose all predictors except target & IDcols
  2. predictors = [x for x in train.columns if x not in [target,IDcol]]
  3. xgb1 = XGBClassifier(
  4. learning_rate =0.1,
  5. n_estimators=1000,
  6. max_depth=5,
  7. min_child_weight=1,
  8. gamma=0,
  9. subsample=0.8,
  10. colsample_bytree=0.8,
  11. objective= 'binary:logistic',
  12. nthread=4,
  13. scale_pos_weight=1,
  14. seed=27)
  15. modelfit(xgb1, train, predictors)



  注意:在这一节我会进行高负荷的栅格搜索(grid search),这个过程大约需要15-30分钟甚至更久,具体取决于你系统的性能,你也可以根据自己系统的性能选择不同的值。

  1. param_test1 = {
  2. 'max_depth':range(3,10,2),
  3. 'min_child_weight':range(1,6,2)
  4. }
  5. gsearch1 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=5,
  6. min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8,
  7. objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27),
  8. param_grid = param_test1, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
  9. gsearch1.fit(train[predictors],train[target])
  10. gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_

输出结果 至此,我们对于数值进行了较大跨度的12中不同的排列组合,可以看出理想的max_depth值为5,理想的min_child_weight值为5。在这个值附近我们可以再进一步调整,来找出理想值。我们把上下范围各拓展1,因为之前我们进行组合的时候,参数调整的步长是2。

  1. param_test2 = {
  2. 'max_depth':[4,5,6],
  3. 'min_child_weight':[4,5,6]
  4. }
  5. gsearch2 = GridSearchCV(estimator = XGBClassifier( learning_rate=0.1, n_estimators=140, max_depth=5,
  6. min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
  7. objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27),
  8. param_grid = param_test2, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
  9. gsearch2.fit(train[predictors],train[target])
  10. gsearch2.grid_scores_, gsearch2.best_params_, gsearch2.best_score_

输出结果 至此,我们得到max_depth的理想取值为4,min_child_weight的理想取值为6。同时,我们还能看到cv的得分有了小小一点提高。需要注意的一点是,随着模型表现的提升,进一步提升的难度是指数级上升的,尤其是你的表现已经接近完美的时候。当然啦,你会发现,虽然min_child_weight的理想取值是6,但是我们还没尝试过大于6的取值。像下面这样,就可以尝试其它值。

  1. param_test2b = {
  2. 'min_child_weight':[6,8,10,12]
  3. }
  4. gsearch2b = GridSearchCV(estimator = XGBClassifier( learning_rate=0.1, n_estimators=140, max_depth=4,
  5. min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test2b, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
  6. gsearch2b.fit(train[predictors],train[target])
  7. modelfit(gsearch3.best_estimator_, train, predictors)
  8. gsearch2b.grid_scores_, gsearch2b.best_params_, gsearch2b.best_score_

输出结果 我们可以看出,6确确实实是理想的取值了。



  1. param_test3 = {
  2. 'gamma':[i/10.0 for i in range(0,5)]
  3. }
  4. gsearch3 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1,
  5. n_estimators=140, max_depth=4,min_child_weight=6, gamma=0,
  6. subsample=0.8, colsample_bytree=0.8,objective= 'binary:logistic',
  7. nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test3, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
  8. gsearch3.fit(train[predictors],train[target])
  9. gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_

gamma 从这里,可以看出,得分提高了。所以,最终得到的参数是:

  1. xgb2 = XGBClassifier(
  2. learning_rate =0.1,
  3. n_estimators=1000,
  4. max_depth=4,
  5. min_child_weight=6,
  6. gamma=0,
  7. subsample=0.8,
  8. colsample_bytree=0.8,
  9. objective= 'binary:logistic',
  10. nthread=4,
  11. scale_pos_weight=1,
  12. seed=27)
  13. modelfit(xgb2, train, predictors)


第四步:调整subsample 和 colsample_bytree参数

  尝试不同的subsample 和 colsample_bytree 参数。我们分两个阶段来进行这个步骤。这两个步骤都取0.6,0.7,0.8,0.9作为起始值。

  1. param_test4 = {
  2. 'subsample':[i/10.0 for i in range(6,10)],
  3. 'colsample_bytree':[i/10.0 for i in range(6,10)]
  4. }
  5. gsearch4 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=3, min_child_weight=4, gamma=0.1, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test4, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
  6. gsearch4.fit(train[predictors],train[target])
  7. gsearch4.grid_scores_, gsearch4.best_params_, gsearch4.best_score_

gsearch4 从这里可以看出来,subsample 和 colsample_bytree 参数的理想取值都是0.8。现在,我们以0.05为步长,在这个值附近尝试取值。

  1. param_test5 = {
  2. 'subsample':[i/100.0 for i in range(75,90,5)],
  3. 'colsample_bytree':[i/100.0 for i in range(75,90,5)]
  4. }
  5. gsearch5 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test5, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
  6. gsearch5.fit(train[predictors],train[target])



  • subsample: 0.8
  • colsample_bytree: 0.8



  1. param_test6 = {
  2. 'reg_alpha':[1e-5, 1e-2, 0.1, 1, 100]
  3. }
  4. gsearch6 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test6, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
  5. gsearch6.fit(train[predictors],train[target])
  6. gsearch6.grid_scores_, gsearch6.best_params_, gsearch6.best_score_

output 我们可以看到,相比之前的结果,CV的得分甚至还降低了。但是我们之前使用的取值是十分粗糙的,我们在这里选取一个比较靠近理想值(0.01)的取值,来看看是否有更好的表现。

  1. param_test7 = {
  2. 'reg_alpha':[0, 0.001, 0.005, 0.01, 0.05]
  3. }
  4. gsearch7 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test7, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
  5. gsearch7.fit(train[predictors],train[target])
  6. gsearch7.grid_scores_, gsearch7.best_params_, gsearch7.best_score_

output7 可以看到,CV的得分提高了。现在,我们在模型中来使用正则化参数,来看看这个参数的影响。

  1. xgb3 = XGBClassifier(
  2. learning_rate =0.1,
  3. n_estimators=1000,
  4. max_depth=4,
  5. min_child_weight=6,
  6. gamma=0,
  7. subsample=0.8,
  8. colsample_bytree=0.8,
  9. reg_alpha=0.005,
  10. objective= 'binary:logistic',
  11. nthread=4,
  12. scale_pos_weight=1,
  13. seed=27)
  14. modelfit(xgb3, train, predictors)

out_put3 然后我们发现性能有了小幅度提高。



  1. xgb4 = XGBClassifier(
  2. learning_rate =0.01,
  3. n_estimators=5000,
  4. max_depth=4,
  5. min_child_weight=6,
  6. gamma=0,
  7. subsample=0.8,
  8. colsample_bytree=0.8,
  9. reg_alpha=0.005,
  10. objective= 'binary:logistic',
  11. nthread=4,
  12. scale_pos_weight=1,
  13. seed=27)
  14. modelfit(xgb4, train, predictors)


   总结一下,要想模型的表现有大幅的提升,调整每个参数带来的影响也必须清楚,仅仅靠着参数的调整和模型的小幅优化,想要让模型的表现有个大幅度提升是不可能的。要想模型的表现有质的飞跃,需要依靠其他的手段。诸如,特征工程(feature egineering) ,模型组合(ensemble of model),以及堆叠(stacking)等。










  1. # plot
  2. pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)
  3. pyplot.show()

我们可以通过在the Pima Indians onset of diabetes 数据集上训练XGBoost模型来演示,并从计算的特征重要性中绘制条形图。

  1. # plot feature importance manually
  2. from numpy import loadtxt
  3. from xgboost import XGBClassifier
  4. from matplotlib import pyplot
  5. from sklearn.datasets import load_iris
  6. # load data
  7. dataset = load_iris()
  8. # split data into X and y
  9. X = dataset.data
  10. y = dataset.target
  11. # fit model no training data
  12. model = XGBClassifier()
  13. model.fit(X, y)
  14. # feature importance
  15. print(model.feature_importances_)
  16. # plot
  17. pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)
  18. pyplot.show()


[0.17941953 0.11345647 0.41556728 0.29155672]




  1. # plot feature importance manually
  2. from numpy import loadtxt
  3. from xgboost import XGBClassifier
  4. from matplotlib import pyplot
  5. from sklearn.datasets import load_iris
  6. from xgboost import plot_importance
  7. # load data
  8. dataset = load_iris()
  9. # split data into X and y
  10. X = dataset.data
  11. y = dataset.target
  12. # fit model no training data
  13. model = XGBClassifier()
  14. model.fit(X, y)
  15. # feature importance
  16. print(model.feature_importances_)
  17. # plot feature importance
  18. plot_importance(model)
  19. pyplot.show()






  1. # select features using threshold
  2. selection = SelectFromModel(model, threshold=thresh, prefit=True)
  3. select_X_train = selection.transform(X_train)
  4. # train model
  5. selection_model = XGBClassifier()
  6. selection_model.fit(select_X_train, y_train)
  7. # eval model
  8. select_X_test = selection.transform(X_test)
  9. y_pred = selection_model.predict(select_X_test)



  1. # plot feature importance manually
  2. import numpy as np
  3. from xgboost import XGBClassifier
  4. from matplotlib import pyplot
  5. from sklearn.datasets import load_iris
  6. from xgboost import plot_importance
  7. from sklearn.model_selection import train_test_split
  8. from sklearn.metrics import accuracy_score
  9. from sklearn.feature_selection import SelectFromModel
  10. # load data
  11. dataset = load_iris()
  12. # split data into X and y
  13. X = dataset.data
  14. y = dataset.target
  15. # split data into train and test sets
  16. X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.33,random_state=7)
  17. # fit model no training data
  18. model = XGBClassifier()
  19. model.fit(X_train, y_train)
  20. # feature importance
  21. print(model.feature_importances_)
  22. # make predictions for test data and evaluate
  23. y_pred = model.predict(X_test)
  24. predictions = [round(value) for value in y_pred]
  25. accuracy = accuracy_score(y_test,predictions)
  26. print("Accuracy:%.2f%%"%(accuracy*100.0))
  27. #fit model using each importance as a threshold
  28. thresholds = np.sort(model.feature_importances_)
  29. for thresh in thresholds:
  30. # select features using threshold
  31. selection = SelectFromModel(model,threshold=thresh,prefit=True )
  32. select_X_train = selection.transform(X_train)
  33. # train model
  34. selection_model = XGBClassifier()
  35. selection_model.fit(select_X_train, y_train)
  36. # eval model
  37. select_X_test = selection.transform(X_test)
  38. y_pred = selection_model.predict(select_X_test)
  39. predictions = [round(value) for value in y_pred]
  40. accuracy = accuracy_score(y_test,predictions)
  41. print("Thresh=%.3f, n=%d, Accuracy: %.2f%%" % (thresh, select_X_train.shape[1], accuracy * 100.0))


  1. [0.20993228 0.09029345 0.54176074 0.15801354]
  2. Accuracy:92.00%
  3. Thresh=0.090, n=4, Accuracy: 92.00%
  4. Thresh=0.158, n=3, Accuracy: 92.00%
  5. Thresh=0.210, n=2, Accuracy: 86.00%
  6. Thresh=0.542, n=1, Accuracy: 90.00%








