1 特征选择的目的


  • 减少特征(避免维度灾难),提高训练速度,降低运算开销;

  • 减少干扰噪声,降低过拟合风险,提升模型效果;

  • 更少的特征,模型可解释性更好。

2 特征选择方法


2.1 过滤法--特征选择


2.1.1 缺失率


  1. # 特征缺失率
  2. miss_rate_df = df.isnull().sum().sort_values(ascending=False) / df.shape[0]

2.1.2 发散性

特征无发散性意味着该特征值基本一样,无区分能力。通过分析特征单个值的最大占比及方差以评估特征发散性情况,并设定阈值对特征进行筛选。阈值可以凭经验值(如单值率<0.9, 方差>0.001)或可观察样本各特征整体分布,以特征分布的异常值作为阈值。

  1. # 分析方差
  2. var_features = df.var().sort_values()
  3. # 特征单值率
  4. sigle_rate = {}
  5. for var in df.columns:
  6. sigle_rate[var]=(df[var].value_counts().max()/df.shape[0])

2.1.3 相关性


  • 方差膨胀因子VIF:

方差膨胀因子也称为方差膨胀系数(Variance Inflation),用于计算数值特征间的共线性,一般当VIF大于10表示有较高共线性。

  1. from statsmodels.stats.outliers_influence import variance_inflation_factor
  2. # 截距项
  3. df['c'] = 1
  4. name = df.columns
  5. x = np.matrix(df)
  6. VIF_list = [variance_inflation_factor(x,i) for i in range(x.shape[1])]
  7. VIF = pd.DataFrame({'feature':name,"VIF":VIF_list})

  • person相关系数:


  1. import seaborn as sns
  2. corr_df=df.corr()
  3. # 热力图
  4. sns.heatmap(corr_df)
  5. # 剔除相关性系数高于threshold的corr_drop
  6. threshold = 0.9
  7. upper = corr_df.where(np.triu(np.ones(corr_df.shape), k=1).astype(np.bool))
  8. corr_drop = [column for column in upper.columns if any(upper[column].abs() > threshold)]
  • Chi2检验


Sklearn的实现是通过矩阵相乘快速得出所有特征的观测值和期望值,在计算出各特征的 χ2 值后排序进行选择。在扩大了 chi2 的在连续型变量适用范围的同时,也方便了特征选择。

  1. from sklearn.datasets import load_iris
  2. from sklearn.feature_selection import SelectKBest
  3. from sklearn.feature_selection import chi2
  4. x, y = load_iris(return_X_y=True)
  5. x_new = SelectKBest(chi2, k=2).fit_transform(x, y)

2.1.4  信息量


  • 信息增益

如目标变量D的信息熵为 H(D),而D在特征A条件下的条件熵为 H(D|A),那么信息增益 G(D , A) 为:


  1. from sklearn.feature_selection import mutual_info_classif
  2. from sklearn.datasets import load_iris
  3. x, y = load_iris(return_X_y=True)
  4. mutual_info_classif(x,y)
  • IV

IV值(Information Value),在风控领域是一个重要的信息量指标,衡量了某个特征(连续型变量需要先离散化)对目标变量的影响程度。其基本思想是根据该特征所命中黑白样本的比率与总黑白样本的比率,来对比和计算其关联程度。【Github代码链接】

2.1.5 稳定性

对大部分数据挖掘场景,特别是风控领域,很关注特征分布的稳定性,其直接影响到模型使用周期的稳定性。常用的是PSI(Population Stability Index,群体稳定性指标)。

  • PSI

PSI表示的是实际与预期分布的差异,SUM( (实际占比 - 预期占比)* ln(实际占比 / 预期占比) )。

在建模时通常以训练样本(In the Sample, INS)作为预期分布,而验证样本作为实际分布。验证样本一般包括样本外(Out of Sample,OOS)和跨时间样本(Out of Time,OOT)【Github代码链接】

2.2 嵌入法--特征选择


  • 基于L1正则项的逻辑回归

L1正则方法具有稀疏解的特性,直观从二维解空间来看L1-ball 为正方形,在顶点处时(如W2=C, W1=0的稀疏解),更容易达到最优解。可见基于L1正则方法的会趋向于产生少量的特征,而其他的特征都为0。

  1. from sklearn.feature_selection import SelectFromModel
  2. from sklearn.linear_model import LogisticRegression
  3. x_new = SelectFromModel(LogisticRegression(penalty="l1", C=0.1)).fit_transform(x, y)
  • 基于树模型的特征排序


  1. import matplotlib.pyplot as plt
  2. from lightgbm import plot_importance
  3. from lightgbm import LGBMClassifier
  4. model = LGBMClassifier()
  5. model.fit(x, y)
  6. plot_importance(model, max_num_features=20, figsize=(10,5),importance_type='split')
  7. plt.show()
  8. feature_importance = pd.DataFrame({
  9. 'feature': model.booster_.feature_name(),
  10. 'gain': model.booster_.feature_importance('gain'),
  11. 'split': model.booster_.feature_importance('split')
  12. }).sort_values('gain',ascending=False)


2.3 包装法--特征选择


(1) 产生过程( Generation Procedure )是搜索特征子集的过程,首先从特征全集中产生出一个特征子集。搜索方式有完全搜索(如广度优先搜索、定向搜索)、启发式搜索(如双向搜索、后向选择)、随机搜索(如随机子集选择、模拟退火、遗传算法)。
(2) 评价函数( Evaluation Function ) 是评价一个特征子集好坏程度的一个准则。
(3) 停止准则( Stopping Criterion )停止准则是与评价函数相关的,一般是一个阈值,当评价函数值达到这个阈值后就可停止搜索。
(4) 验证过程( Validation Procedure )是在验证数据集上验证选出来的特征子集的实际效果。


  • RFE


  1. from sklearn.feature_selection import RFE
  2. rfe = RFE(estimator,n_features_to_select,step)
  3. rfe = rfe.fit(x, y)
  4. print(rfe.support_)
  5. print(rfe.ranking_)
  • 双向搜索特征选择


  1. """
  2. 基于启发式双向搜索及模拟退火的特征选择方法。
  3. """
  4. import pandas as pd
  5. import random
  6. from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score, roc_curve, auc
  7. def model_metrics(model, x, y, pos_label=1):
  8. """
  9. 评价函数
  10. """
  11. yhat = model.predict(x)
  12. yprob = model.predict_proba(x)[:,1]
  13. fpr, tpr, _ = roc_curve(y, yprob, pos_label=pos_label)
  14. result = {'accuracy_score':accuracy_score(y, yhat),
  15. 'f1_score_macro': f1_score(y, yhat, average = "macro"),
  16. 'precision':precision_score(y, yhat,average="macro"),
  17. 'recall':recall_score(y, yhat,average="macro"),
  18. 'auc':auc(fpr,tpr),
  19. 'ks': max(abs(tpr-fpr))
  20. }
  21. return result
  22. def bidirectional_selection(model, x_train, y_train, x_test, y_test, annealing=True, anneal_rate=0.1, iters=10,best_metrics=0,
  23. metrics='auc',threshold_in=0.0001, threshold_out=0.0001,early_stop=True,
  24. verbose=True):
  25. """
  26. model 选择的模型
  27. annealing 模拟退火算法
  28. threshold_in 特征入模的>阈值
  29. threshold_out 特征剔除的<阈值
  30. """
  31. included = []
  32. best_metrics = best_metrics
  33. for i in range(iters):
  34. # forward step
  35. print("iters", i)
  36. changed = False
  37. excluded = list(set(x_train.columns) - set(included))
  38. random.shuffle(excluded)
  39. for new_column in excluded:
  40. model.fit(x_train[included+[new_column]], y_train)
  41. latest_metrics = model_metrics(model, x_test[included+[new_column]], y_test)[metrics]
  42. if latest_metrics - best_metrics > threshold_in:
  43. included.append(new_column)
  44. change = True
  45. if verbose:
  46. print ('Add {} with metrics gain {:.6}'.format(new_column,latest_metrics-best_metrics))
  47. best_metrics = latest_metrics
  48. elif annealing:
  49. if random.randint(0, iters) <= iters * anneal_rate:
  50. included.append(new_column)
  51. if verbose:
  52. print ('Annealing Add {} with metrics gain {:.6}'.format(new_column,latest_metrics-best_metrics))
  53. # backward step
  54. random.shuffle(included)
  55. for new_column in included:
  56. included.remove(new_column)
  57. model.fit(x_train[included], y_train)
  58. latest_metrics = model_metrics(model, x_test[included], y_test)[metrics]
  59. if latest_metrics - best_metrics < threshold_out:
  60. included.append(new_column)
  61. else:
  62. changed = True
  63. best_metrics= latest_metrics
  64. if verbose:
  65. print('Drop{} with metrics gain {:.6}'.format(new_column,latest_metrics-best_metrics))
  66. if not changed and early_stop:
  67. break
  68. return included
  69. #示例
  70. from sklearn.model_selection import train_test_split
  71. x_train, x_test, y_train, y_test = train_test_split(x, y)
  72. model = LGBMClassifier()
  73. included = bidirectional_selection(model, x_train, y_train, x_test, y_test, annealing=True, iters=50,best_metrics=0.5,
  74. metrics='auc',threshold_in=0.0001, threshold_out=0,
  75. early_stop=False,verbose=True)



