【机器学习笔记day06】1.4. 数据的特征选择+sklearn.feature_selection_d4p.featureselection

作者：我家自动化 | 2024-08-08 04:10:36

踩

d4p.featureselection

文章目录

1.4. 数据的特征选择
数据的特征选择
- sklearn.feature_selection

1.4. 数据的特征选择

在这里插入图片描述

数据的特征选择

降维本质上是从一个维度空间映射到另一个维度空间，特征的多少别没有减少，当然在映射的过程中特征值也会相应的变化。举个例子，现在的特征是1000维，我们想要把它降到500维。降维的过程就是找个一个从1000维映射到500维的映射关系。原始数据中的1000个特征，每一个都对应着降维后的500维空间中的一个值。假设原始特征中有个特征的值是9，那么降维后对应的值可能是3。而对于特征选择来说，有很多方法：

Filter(过滤式):VarianceThreshold
Embedded(嵌入式)：正则化、决策树
Wrapper(包裹式)

其中过滤式的特征选择后，数据本身不变，而数据的维度减少。而嵌入式的特征选择方法也会改变数据的值，维度也改变。Embedded方式是一种自动学习的特征选择方法，后面讲到具体的方法的时候就能理解了。

特征选择主要有两个功能：

（1）减少特征数量，降维，使模型泛化能力更强，减少过拟合

（2）增强特征和特征值之间的理解

sklearn.feature_selection

去掉取值变化小的特征（删除低方差特征）

VarianceThr

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】