机器学习——逻辑回归，岭回归与LASSO，模型评价指标学习笔记_lasso逻辑回归

作者：酷酷是懒虫 | 2024-07-09 08:47:41

踩

lasso逻辑回归

逻辑回归 —— 用于解决分类问题

误差计算

原来计算预测值，线性计算结果如果小于零，预测值为0；如果原来计算预测值为1，预测值就为1。结果只有0和1两种取值，但是这样如果样本错误分类，误差为1，如果样本正确分类，误差为0。这种误差计算方式太为武断，且无法反映误差大小。如下：

{\begin{cases} 0 & θ^{T} x < 0 \\ 1 & θ^{T} x > 0 \end{cases}

$\begin{cases} 0 && \theta^Tx<0\\ 1 && \theta^Tx>0\\ \end{cases}$

h (x) = {01 θ^{T} x < 0 θ^{T} x > 0

因此将原本分类前的预测值用sigmoid函数散列到零和一之间的数，来表示它有多大的概率分类结果为0/1。代入sigmiod函数

=\frac{1}{1+e^{-x}}\\ 所以，h(x)=g(\theta^TX)

将预测值散列到 0-1之间。计算代价函数就不会出现只有两个值的情况了，也更能反映估计值与真实值的偏差

训练误差

根据训练数据，训练出来一个训练模型。将训练数据带入模型中，得出训练数据的预测值。该预测值与训练数据（真实值）的误差叫做训练误差。
在工程中，一般会将拿到的数据集做切分，百分之八十做训练数据，百分之二十做

预测误差

测试数据与真实值的误差，一般可以将预测误差当作泛化误差。

泛化误差

模型将来会用来去预测未知的样本，若用到未知的样本上，产生的误差叫做泛化误差。

代价函数

在这里插入图片描述

在c=1时，预测错误的代价可以直接用x，θ计算出来的sigmoid值来表示条件概率，即在给出预测值的条件下，c=1发生的概率
在c=0时，越接近0概率越小，但是我们希望当c=0时，预测错误的代价是大的，因此用1-h_θ(x)来表示

代价函数求对数的原因:

连乘变为连加
求对数后的单调性和函数本身一致

岭回归

岭回归的代价函数实际上就是对 θ的L(2)正则化

岭系数就是正则化参数，而岭回归就由于正则化（对每个参数增加了惩罚因子），而避免了过拟合问题

LASSO回归——稀疏化

高维数据指数据的维度很高，甚至远大于样本量的个数。高维数据的明显的表现是：在空间中数据是非常稀疏的，与空间的维数相比样本量总是显得非常少。
在分析高维数据过程中碰到最大的问题就是维数的膨胀，也就是通常所说的“维数灾难”问题。研究表明，随着维数的增长，分析所需的空间样本数会呈指数增长。
Lasso是另一种数据降维方法，该方法不仅适用于线性情况，也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择，通过对原本的系数进行压缩，将原本很小的系数直接压缩至0，从而将这部分系数所对应的变量视为非显著性变量，将不显著的变量直接舍弃（系数变为0）。

LASSO回归之所以会带来稀疏化的效果，是因为他是L1正则化项，因此代价函数等值线更容易切到阴影部分的顶点，切到顶点就必然会有某些权重很小或几乎为0，这就是LASSO稀疏化得原因。

LASSO与岭回归

$\beta = \arg min\{\sum_{i=1}^N(y_i-h(x_i))^2+\lambda\sum_{j=1}^p\beta^2\}\\ 等价于\\ \beta = \arg min\{\sum_{i=1}^N(y_i-h(x_i))^2\}\\ s.t.\sum_{j=1}^p\beta_j^2\le t$
岭回归:
多重线性回归要求各个自变量之间相互独立，不存在多重共线性。所谓多重共线性，是指自变量之间存在某种相关或者高度相关的关系，其中某个自变量可以被其他自变量组成的线性组合来解释。
医学研究中常见的生理资料，如收缩压和舒张压、总胆固醇和低密度脂蛋白胆固醇等，这些变量之间本身在人体中就存在一定的关联性。如果在构建多重线性回归模型时，把具有多重共线性的变量一同放在模型中进行拟合，就会出现方程估计的偏回归系数明显与常识不相符，甚至出现符号方向相反的情况，对模型的拟合带来严重的影响。

模型评价指标

准确率：在所有识别的样本中，能正确分类（识别结果准确）的样本在总识别样本数中的占比
正确率：在所有预测为正的样本中，结果确实为正的样本的占比
召回率：在所有实际为正的样本中，被预测出来为正的样本的占比

ROC与AUC

在逻辑回归分类中，二维平面上，纵坐标表示真实类别，横坐标表示预测函数计算结果（因为预测结果是x被分为某类的概率值，因此图中为“ 概率 ”）。据此，可以给定一个阈值，将预测函数计算出来的结果根据阈值进行二分类。

ROC

将混淆矩阵映射到二维空间中：横轴：FPR,纵轴：TPR。

在这里插入图片描述

绘制步骤：

在这里插入图片描述

理解：

可以将ROC的横轴理解为代价，纵轴理解为收获

AUC

AUC为ROC与横轴的面积

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/801938