当前位置:   article > 正文

机器学习-特征降维

机器学习-特征降维

特征降维

1. 简介

"""
原因
	用于训练的数据集包含一些不重要的特征, 可能导致模型泛化性能不佳
目的
	在某些限定条件下,降低特征个数
"""
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

2. 常用方法

"""
常用方法: 
	1 .低方差过滤法
		指删除方差低于某些阈值的一些特征
		特征方差小:
			特征值的波动范围小, 包含的信息少, 模型学习的信息少
		特征方差大:
			特征值的波动范围大, 包含的信息相对丰富, 便于模型进行学习
		API
			sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
				实例化对象用于删除所有低方差特征
			variance_obj.fit_transform(X)
				X:numpy array格式的数据[n_samples,n_features]
				返回值:训练集差异低于threshold的特征将被删除
				默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征
	2. PCA(主成分分析) 降维法
		PCA 通过对数据维数进行压缩,尽可能降低原数据的维数(复杂度)
		损失少量信息,在此过程中可能会舍弃原有数据、创造新的变量
		API
			sklearn.decomposition.PCA(n_components=None)
				将数据分解为较低维数空间
			n_components: 小数表示保留百分之多少的信息;整数表示减少到多少特征 eg:由20个特征减少到10个
			mypcaobj.fit_transform(X)
				返回值:转换后指定维度的array
	3. 相关系数(皮尔逊相关系数, 斯皮尔曼相关系数)
		引用原因
			相关系数:反映特征列之间(变量之间)密切相关程度的统计指标
			常见2个相关系数:皮尔逊相关系数、斯皮尔曼相关系数
		性质
			当 r > 0 时,表示两变量正相关,r < 0 时,两变量为负相关
			当 |r| = 1 时,表示两变量为完全相关,当r = 0时,表示两变量间无相关关系
			当 0 < |r| < 1时,表示两变量存在一定程度的相关 且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱
		相关度划分
			|r| <0.4为低度相关
			0.4≤ |r| <0.7为显著性相关
			0.7 ≤ |r| <1为高度线性相关
		皮尔逊相关系数
			
		斯皮尔曼相关系数
			
			n为等级个数,d为成对变量的等级差数
"""
# 1.导入依赖包
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

def pcaDemo():
    # 2. 加载数据集
    x, y = load_iris(return_X_y=True)
    print(x.size)
    # 3. PCA,保留指定比例的信息
    transformer = PCA(n_components=0.98)
    x_pca = transformer.fit_transform(x)
    print(x_pca.size)
    # 4. PCA,保留指定数量特征
    transformer = PCA(n_components=2)
    x_pca = transformer.fit_transform(x)
    print(x_pca.size)


# 1.导入依赖包
import pandas as pd
from sklearn.feature_selection import VarianceThreshold
from scipy.stats import pearsonr
from scipy.stats import spearmanr
from sklearn.datasets import load_iris

def coefficientDemo():
    # 2.读取数据集(鸢尾花数据集)
    data = load_iris()
    data = pd.DataFrame(data.data, columns=data.feature_names)
    # 3. 皮尔逊相关系数
    corr = pearsonr(data['sepal length (cm)'], data['sepal width (cm)'])
    print(corr, '皮尔逊相关系数:', corr[0], '不相关性概率:', corr[1])
    # (-0.11756978413300204, 0.15189826071144918) 皮尔逊相关系数: -0.11756978413300204 不相关性概率: 0.15189826071144918
    # 4. 斯皮尔曼相关系数
    corr = spearmanr(data['sepal length (cm)'], data['sepal width (cm)'])
    print(corr, '斯皮尔曼相关系数:', corr[0], '不相关性概率:', corr[1])
    # SpearmanrResult(correlation=-0.166777658283235, pvalue=0.04136799424884587) 斯皮尔曼相关系数: -0.166777658283235 不相关性概率: 0.04136799424884587

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80

皮尔逊相关系数公式
在这里插入图片描述
斯皮尔曼相关系数

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/949102
推荐阅读
相关标签
  

闽ICP备14008679号