赞
踩
特征选择在机器学习领域中扮演着至关重要的角色,它能够从原始数据中选择最具信息量的特征,提高模型性能、减少过拟合,并加快模型训练和预测的速度。在大规模数据集和高维数据中,特征选择尤为重要,因为不必要的特征会增加计算复杂性并引入冗余信息。
Lasso回归是一种强有力的特征选择方法,通过引入L1正则化来推动部分特征系数稀疏化。相比于其他方法,Lasso回归具有良好的解释性和可解释性,能够自动选择与目标变量相关的重要特征,同时将不相关或冗余特征的系数置零。这使得Lasso回归成为特征选择和维度约简的首选方法。
本文旨在介绍Lasso回归在精确特征选择中的应用。首先,我们将探讨特征选择的重要性,包括如何提高模型性能和降低计算成本。接着,我们将深入解析Lasso回归的原理和算法,并说明其在特征选择中的优势。为了支撑我们的观点,我们将引用相关文献提供的实证结果和案例分析。
Lasso回归,也称为最小绝对收缩和选择算子回归,是一种线性回归方法。其基本原理是在普通最小二乘法的基础上,引入L1正则化项,通过最小化目标函数来实现模型的特征选择和系数稀疏化。
Lasso回归的目标函数如下所示: minimize ||Y - Xβ||^2 + λ||β||₁
其中,Y是观测值向量,X是特征矩阵,β是待估计的回归系数向量,λ是控制正则化强度的超参数。
L1正则化项λ||β||₁在目标函数中起到了关键作用。它引入了稀疏性,即使得一些特征的系数被压缩为零,从而实现了自动的特征选择。因此,Lasso回归不仅可以进行预测,还可以识别出对目标变量有重要影响的特征。
Lasso回归与普通最小二乘法之间存在着几个重要的区别。
综上所述,Lasso回归通过引入L1正则化项,实现了特征选择和系数稀疏化,与普通最小二乘法相比,在模型解释性和适应高维数据等方面具有一定的优势。
过滤方法是一种常见的特征选择方法,它通过在训练模型之前对特征进行筛选,选择那些与目标变量相关性较高的特征。以下是几种常用的过滤方法:
这些过滤方法都是基于统计学原理和度量指标来进行特征选择的,它们简单直观,计算效率高,并且可以帮助筛选出与目标变量相关性较强的特征。但是过滤方法忽略了特征之间的相互作用和非线性关系,可能会无法捕捉到一些重要的特征。因此,在实际应用中,可以结合其他特征选择方法,如包裹方法和嵌入方法,以获得更准确和鲁棒的特征选择结果。
包装方法是一种更为复杂和耗时的特征选择方法,它通过使用某个学习模型来评估特征的重要性,并根据重要性进行特征选择。以下是两种常见的包装方法:
包装方法相对于过滤方法更为精确,能够考虑特征之间的相互作用和非线性关系。然而,由于包装方法需要多次训练模型,计算复杂度较高,并且对于大规模数据集可能不太适用。因此,在应用包装方法时需要权衡计算资源和模型性能的平衡。同时,选择合适的学习模型和评估函数也是非常重要的,以确保得到准确和稳定的特征选择结果。
嵌入方法是一种将特征选择与模型训练过程相结合的方法,它通过在学习模型中嵌入特征选择来选择最佳的特征子集。以下是一个常见的嵌入方法:
嵌入方法将特征选择与模型训练过程融合在一起,能够自动选择与目标变量相关性较强的特征。相比于过滤方法和包装方法,嵌入方法更加灵活,能够考虑到特征之间的相互作用。然而,嵌入方法通常需要更多的计算资源和时间,并且对于非线性模型可能效果不如包装方法或过滤方法。因此,在选择嵌入方法时,需要根据具体问题和数据集的特点进行权衡和选择合适的方法。
library(survival)
str(gbsg)
结果展示:
> str(gbsg)
'data.frame': 686 obs. of 10 variables:
$ age : int 49 55 56 45 65 48 48 37 67 45 ...
$ meno : int 0 1 1 0 1 0 0 0 1 0 ...
$ size : int 18 20 40 25 30 52 21 20 20 30 ...
$ grade : int 2 3 3 3 2 2 3 2 2 2 ...
$ nodes : int 2 16 3 1 5 11 8 9 1 1 ...
$ pgr : int 0 0 0 0 0 0 0 0 0 0 ...
$ er : int 0 0 0 4 36 0 0 0 0 0 ...
$ hormon : int 0 0 0 0 1 0 0 1 1 0 ...
$ rfstime: int 1838 403 1603 177 1855 842 293 42 564 1093 ...
$ status : Factor w/ 2 levels "0","1": 1 2 1 1 1 2 2 1 2 2 ...
age:患者年龄
meno:更年期状态(0表示未更年期,1表示已更年期)
size:肿瘤大小
grade:肿瘤分级
nodes:受累淋巴结数量
pgr:孕激素受体表达水平
er:雌激素受体表达水平
hormon:激素治疗(0表示否,1表示是)
rfstime:复发或死亡时间(以天为单位)
status:事件状态(0表示被截尾,1表示事件发生)
colSums(is.na(gbsg))
set.seed(1234)
gbsg$status <- as.factor(gbsg$status)
# 拆分训练集和测试集
trainIndex <- sample(1:nrow(gbsg), 0.8 * nrow(gbsg))
train <- gbsg[trainIndex,]
test <- gbsg[-trainIndex,]
# 安装并加载所需的R包
install.packages("glmnet")
library(glmnet)
x <- as.matrix(train[, c(-1,-11)])
y <- as.numeric(train$status)
# 计算标准化前的均值和标准差
colMeans(x)
apply(x,2,sd)
# 标准化
x = scale(x,center = T,scale = T)
# 构建模型
la_md <- glmnet(x, y, lambda=0.1,
family='gaussian',
intercept = F, alpha=1)
glmnet函数是用于构建弹性网络模型的函数,具体解释如下:
关于如何设置lambda和alpha,以及family的选择,这需要根据具体问题和数据来进行调整。一般来说:
需要注意的是,这只是一些一般性的指导原则。具体的选择还要考虑数据的特点和分析目标。
# Lasso筛选变量动态过程图
la.md <- glmnet(x, y, family="gaussian",
intercept = F, alpha=1)
# plot
plot(la.md,xvar = "lambda", label = F)
从图中,我们可以看出,随着lambda增大,各特征相应的也被压缩得更小,而当lambda达到一定值以后,一部分不重要的特征将被压缩为0,代表该变量已被剔除出模型,图中从左至右不断下降的曲线如同被不断增大的lambda一步一步压缩,直到压缩为0。
「对于特征的系数大小」:
「对于特征的非零系数个数」:
需要明确的是,特征的系数大小和非零系数个数仅反映特征与响应变量之间的关系,并不能直接推断特征的实际影响或取值。具体特征对应的实际取值以及与响应变量之间的关系,还需要根据具体问题和数据背景进行进一步分析和解释。
可以通过交叉验证法(cross-validation)来选择合适的lambda值。函数cv.glmnet可以帮助我们进行交叉验证,选择最优的lambda值.
mod_cv <- cv.glmnet(x=x, y=y, family="gaussian", # 默认nfolds = 10
intercept = F, alpha=1)
plot(mod_cv)
# 最小误差对应的lambda和最小误差
print(paste(mod_cv$lambda.min,
log(mod_cv$lambda.min)))
print(paste(mod_cv$lambda.1se,
log(mod_cv$lambda.1se)))
# 这里我们以lambda.min为最优 λ
best_lambda <- mod_cv$lambda.min
best_lambda
结果显示:
> print(paste(mod_cv$lambda.min,
+ log(mod_cv$lambda.min)))
[1] "0.093983735301881 -2.36463354038672"
> print(paste(mod_cv$lambda.1se,
+ log(mod_cv$lambda.1se)))
[1] "0.217114618245629 -1.52732987020707"
通过交叉验证,我们可以选择平均误差最小的那个λ,即mod_cv lambda.1se。从图中可以看出,λ在-3和-2之间最低,大概是-2.3左右的样子误差最小。然后从打印出的最佳lambda是0.09398374。
best_model <- glmnet(x, y, alpha = 1, lambda = best_lambda)
coef(best_model)
结果展示:
10 x 1 sparse Matrix of class "dgCMatrix"
s0
(Intercept) 1.4489051
age .
meno .
size .
grade .
nodes .
pgr .
er .
hormon .
rfstime -0.1232434
如变量没有显示系数,即lasso回归收缩系数为零。这意味着它完全被排除在模型之外,因为它的影响力不够。系数非0的变量即为我们筛选的重要特征。
x_test <- as.matrix(test[, c(-1,-11)])
y_test <- as.numeric(test$status)
# 标准化
x_test = scale(x_test,center = T,scale = T)
#使用 lasso 回归模型预测
y_predicted <- predict(best_model, s = best_lambda, newx = x_test)
sst <- sum((y_test - mean(y_test))^2)
sse <- sum((y_predicted - y_test)^2)
rsq <- 1 - sse/sst
rsq
结果展示:
> rsq
[1] 0.1607887
rsq即是R²:
这里解释一下为什么这次的R²只有0.16,远远低于0.5,更是低于医学可接受的值,我使用的数据是二分类数据,即只有0和1是离散型变量,不是连续型的数值。所以使用R²来评价是不合理的。所以这个偏差是合理的。
Lasso回归是一种用于特征选择和预测建模的线性回归方法,通常用于连续型的数值响应变量。对于因子类型的离散响应变量,Lasso回归通常不直接适用。
对于因子类型的响应变量,通常需要使用适合离散型数据的回归模型,例如逻辑回归(Logistic Regression)或多项式回归(Multinomial Regression)。这些模型可以应用于分类问题或多类别预测问题。
逻辑回归(Logistic Regression)用于二分类问题,将因子型的响应变量映射为概率值,表示某个类别的概率。多项式回归(Multinomial Regression)则用于多分类问题,将因子型的响应变量映射为多个类别的概率分布。
需要注意的是,无论是使用Lasso回归还是其他回归方法,对于因子类型的响应变量,都需要进行适当的编码和转换,将因子变量映射为数值型变量,以便模型的计算和分析。
如果因子类型的响应变量只有两个取值(0和1),可以将问题看作是二分类问题。在这种情况下,Lasso回归可以被用于选择与响应变量相关性最强的特征,并建立一个预测模型。
在使用Lasso回归时,需要对因子型的响应变量进行适当的编码。一种常见的编码方法是使用虚拟变量(Dummy Variable)编码。将因子型的响应变量转化为两个虚拟变量,如0表示一个类别,1表示另一个类别,然后使用Lasso回归进行建模。
虽然Lasso回归原本是用于处理连续型的数值响应变量,但通过将因子型的响应变量进行适当的编码,我们可以将其扩展到处理二分类问题。这是因为Lasso回归对特征的选择性质仍然适用。
需要注意的是,在使用Lasso回归进行二分类建模时,我们通常使用的评估指标是准确率、精确率、召回率或F1分数等,而非均方误差(Mean Squared Error)等用于度量连续型响应变量的指标。
这里是不是解释了刚才我们计算出的R²的偏低情况。如果想了解如何使用Lasso回归如何对离散型的因子变量进行特征筛选,欢迎关注和私信我,我们一起讨论学习。原创不易,如果觉得写的还行的话,请留下您的赞和再看,谢谢!
*「未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。」
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。