赞
踩
当然,有几种方法可以选择您的特性。但有时下一个简单的方法可以帮助你。你可以在线性模型的帮助下评估你的特征的贡献(通过对结果变量的潜在预测)。请注意,它主要适用于您怀疑您的特征和答案之间存在线性相关性的情况。在import statsmodels.formula.api as smf
# Lottery here is Y, the fields from X are right of ~
mod = smf.ols(formula='Lottery ~ Literacy + Wealth + Region', data=df)
res = mod.fit()
print(res.summary())
OLS Regression Results
==============================================================================
Dep. Variable: Lottery R-squared: 0.338
Model: OLS Adj. R-squared: 0.287
Method: Least Squares F-statistic: 6.636
Date: Tue, 28 Feb 2017 Prob (F-statistic): 1.07e-05
Time: 21:36:08 Log-Likelihood: -375.30
No. Observations: 85 AIC: 764.6
Df Residuals: 78 BIC: 781.7
Df Model: 6
Covariance Type: nonrobust
===============================================================================
coef std err t P>|t| [0.025 0.975]
-
Intercept 38.6517 9.456 4.087 0.000 19.826 57.478
Region[T.E] -15.4278 9.727 -1.586 0.117 -34.793 3.938
Region[T.N] -10.0170 9.260 -1.082 0.283 -28.453 8.419
Region[T.S] -4.5483 7.279 -0.625 0.534 -19.039 9.943
Region[T.W] -10.0913 7.196 -1.402 0.165 -24.418 4.235
Literacy -0.1858 0.210 -0.886 0.378 -0.603 0.232
Wealth 0.4515 0.103 4.390 0.000 0.247 0.656
==============================================================================
Omnibus: 3.049 Durbin-Watson: 1.785
Prob(Omnibus): 0.218 Jarque-Bera (JB): 2.694
Skew: -0.340 Prob(JB): 0.260
Kurtosis: 2.454 Cond. No. 371.
==============================================================================
R平方值越大,所选择的特征组合就越能预测线性模型中的响应。如果他们能用线性模型来预测,那么我认为,他们在决策树等更复杂的模型上有更大的潜力。在
请查看下一页了解更多详细信息(请注意,如果您的数据错误是异方差的,则可能需要进行一些额外的数据处理,以获得正确的结果):
http://www.statsmodels.org/dev/example_formulas.html
当然,我也建议你为你的特征建立配对图。在
这些方法不是很深入,它们参考的是相关性和你所看到的,但有时(在不困难的情况下)是务实的。在
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。