赞
踩
"""
原因
用于训练的数据集包含一些不重要的特征, 可能导致模型泛化性能不佳
目的
在某些限定条件下,降低特征个数
"""
""" 常用方法: 1 .低方差过滤法 指删除方差低于某些阈值的一些特征 特征方差小: 特征值的波动范围小, 包含的信息少, 模型学习的信息少 特征方差大: 特征值的波动范围大, 包含的信息相对丰富, 便于模型进行学习 API sklearn.feature_selection.VarianceThreshold(threshold = 0.0) 实例化对象用于删除所有低方差特征 variance_obj.fit_transform(X) X:numpy array格式的数据[n_samples,n_features] 返回值:训练集差异低于threshold的特征将被删除 默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征 2. PCA(主成分分析) 降维法 PCA 通过对数据维数进行压缩,尽可能降低原数据的维数(复杂度) 损失少量信息,在此过程中可能会舍弃原有数据、创造新的变量 API sklearn.decomposition.PCA(n_components=None) 将数据分解为较低维数空间 n_components: 小数表示保留百分之多少的信息;整数表示减少到多少特征 eg:由20个特征减少到10个 mypcaobj.fit_transform(X) 返回值:转换后指定维度的array 3. 相关系数(皮尔逊相关系数, 斯皮尔曼相关系数) 引用原因 相关系数:反映特征列之间(变量之间)密切相关程度的统计指标 常见2个相关系数:皮尔逊相关系数、斯皮尔曼相关系数 性质 当 r > 0 时,表示两变量正相关,r < 0 时,两变量为负相关 当 |r| = 1 时,表示两变量为完全相关,当r = 0时,表示两变量间无相关关系 当 0 < |r| < 1时,表示两变量存在一定程度的相关 且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱 相关度划分 |r| <0.4为低度相关 0.4≤ |r| <0.7为显著性相关 0.7 ≤ |r| <1为高度线性相关 皮尔逊相关系数 斯皮尔曼相关系数 n为等级个数,d为成对变量的等级差数 """ # 1.导入依赖包 from sklearn.decomposition import PCA from sklearn.datasets import load_iris def pcaDemo(): # 2. 加载数据集 x, y = load_iris(return_X_y=True) print(x.size) # 3. PCA,保留指定比例的信息 transformer = PCA(n_components=0.98) x_pca = transformer.fit_transform(x) print(x_pca.size) # 4. PCA,保留指定数量特征 transformer = PCA(n_components=2) x_pca = transformer.fit_transform(x) print(x_pca.size) # 1.导入依赖包 import pandas as pd from sklearn.feature_selection import VarianceThreshold from scipy.stats import pearsonr from scipy.stats import spearmanr from sklearn.datasets import load_iris def coefficientDemo(): # 2.读取数据集(鸢尾花数据集) data = load_iris() data = pd.DataFrame(data.data, columns=data.feature_names) # 3. 皮尔逊相关系数 corr = pearsonr(data['sepal length (cm)'], data['sepal width (cm)']) print(corr, '皮尔逊相关系数:', corr[0], '不相关性概率:', corr[1]) # (-0.11756978413300204, 0.15189826071144918) 皮尔逊相关系数: -0.11756978413300204 不相关性概率: 0.15189826071144918 # 4. 斯皮尔曼相关系数 corr = spearmanr(data['sepal length (cm)'], data['sepal width (cm)']) print(corr, '斯皮尔曼相关系数:', corr[0], '不相关性概率:', corr[1]) # SpearmanrResult(correlation=-0.166777658283235, pvalue=0.04136799424884587) 斯皮尔曼相关系数: -0.166777658283235 不相关性概率: 0.04136799424884587
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。