赞
踩
1. 减少特征数量、降维,加强模型的泛化能力,减少过拟合
2. 增强对特征和特征值之间的理解
该方法衡量变量之间的线性相关性,取值范围为【-1,1】、
-1表示完全负相关;0表示完全没有线性关系;+1表示完全正相关。
优点:速度快,易于计算
缺点:只能衡量线性相关性
Python代码:使用scipy.stats的 pearsonr函数:
- import numpy as np
- from scipy.stats import pearsonr
-
- np.random.seed(0)
- size = 300
- x = np.random.normal(0, 1, size)
- y = x + np.random.normal(0, 1, size)
- print("Pearsonr", pearsonr(x, y))
思路:直接使用机器学习算法针对每个单独的特征和因变量建立预测模型。
Python代码:
- import numpy as np
- from sklearn.model_selection import KFold,cross_val_score,ShuffleSplit
- from sklearn.datasets import load_boston
- from sklearn.ensemble import RandomForestRegressor
-
- #Load boston housing dataset as an example
- bost
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。