当前位置:   article > 正文

机器学习python实践(四)特征选择_单变量选择python写一段python代码,用于选择数据集中的一个单变量

单变量选择python写一段python代码,用于选择数据集中的一个单变量

《机器学习python实践》书本上给出了源码地址:https://github.com/weizy1981/MachineLearning

特征选择

特征选择的作用:降低数据拟合度,提高算法精度,减少训练时间。

四种特征选择方法

1.单变量特征选定

统计分析可以用来分析选择对结果影响最大的数据特征。卡方检验是统计样本的实际观测值和理论推断值之间的偏离程度。偏离程度决定了卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合。

  1. from sklearn.feature_selection import SelectKBest
  2. from sklearn.feature_selection import chi2
  3. from numpy import set_printoptions
  4. #单变量特征选择
  5. test=SelectKBest(score_func=chi2,k=4)
  6. fit=test.fit(X,Y)
  7. set_printoptions(precision=3)
  8. print(fit.scores_)
  9. features=fit.transform(X)
  10. print(features)

2. 递归特征选定

递归特征消除使用一个基模型来进行多轮训练,每一轮训练后消除若干权值系数的特征,再基于新的特征集进行下一轮的训练。

  1. #递归特征消除
  2. from sklearn.linear_model import LogisticRegression
  3. from sklearn.feature_selection import RFE
  4. #特征选定
  5. model=LogisticRegression()
  6. rfe=RFE(model,3)
  7. fit=rfe.fit(X,Y)
  8. print("特征个数:")
  9. print(fit.n_features_)
  10. print("被选定的特征:")
  11. print(fit.support_)
  12. print('特征排名:')
  13. print(fit.ranking_)

3. 主成分分析

主成分分析PCA使用线性代数来转换压缩数据,又称为数据降维。

常见的数据降维方法除了PCA,还有线性判别分析LDA。

  1. #PCA
  2. from sklearn.decomposition import PCA
  3. pca=PCA(n_components=3)
  4. fit = pca.fit(X)
  5. print("解释方差为:%s" % fit.explained_variance_ratio_)
  6. print(fit.components_)

4. 特征的重要性

袋装决策树算法、随机森林和计算随机树算法都可以用来计算数据特征的重要性。

  1. #ExtraTreesClassifier
  2. from sklearn.ensemble import ExtraTreesClassifier
  3. model=ExtraTreesClassifier()
  4. fit=model.fit(X,Y)
  5. print(fit.feature_importances_)

参考《机器学习python实践》,魏贞原,2018.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/358941
推荐阅读
相关标签
  

闽ICP备14008679号