当前位置:   article > 正文

关于logistic、logit、log-odds、sigmoid、softmax、cross entropy

log-odds

定义

sigmoid 函数:形状像S的函数。

logistic 函数:一种典型的sigmoid 函数,函数如下:
在这里插入图片描述

logit函数:logistic 函数的反函数,也有logistic unit的意思,类似于probit相对于标准正态分布的分布函数(也是S型的呢)的反函数,即probability unit,就是通过概率找到随机变量的值:
在这里插入图片描述
也叫log-odds函数,因为p/(1-p)在统计学中叫做odds,几率、可能性、胜率的意思。

logistic模型(logit模型):是一种回归模型,回归模型就是指对两个随机变量建立关系,比如线性关系就是线性回归模型,当因变量是离散值的时候用的一种模型,用来建模某一离散值的概率和自变量的关系,一个简单但是不太专业的理解可以看这篇文章:浅入深出被人看扁的逻辑回归

softmax函数:是logistic 函数在多个维度的泛化,也叫归一化指数函数,函数如下:
在这里插入图片描述
softmax regression:多分类问题的回归模型

cross entropy:是信息论的一个概念,可以衡量关于同一组事件的实际分布p和估计分布q这两个概率分布之间的差异,公式如下:
在这里插入图片描述

cross entropy loss:在深度学习的分类任务中,神经网络的输出在[0,1]区间,可以看作估计概率分布,而one-hot标签可以看成实际概率分布,因此可以用交叉熵来作为损失函数,而且求出的导数也很简洁,然后梯度下降balabala。

关系

其实一直很纳闷,到底是先有logistic,还是先有logit。
关于logit的理解可以看这篇文章:Logit究竟是个啥?——离散选择模型之三

看了这一系列文章:Logistic回归的起源(上),感觉好像是先有logistic函数,然后提出了logistic(logit)模型,但是我在这篇文章里又感觉是反过来的:Logistic Regression – Why sigmoid function,是先有logit(p/(1-p))=wx+b,然后推出p=logistic(x),我上这门课的时候老师也是以这样的逻辑讲的:

(当时上课的时候以为明白了,现在查了很多资料之后觉得不太明白了……)

然后关于logistic和softmax,我的理解是这样的:

考虑softmax维度为2的时候,x1和x2两个变量其实是冗余的,所以其实只需要神经网络的最后一个线性层输出一个值就可以了,这个值就是t,那么线性层后面的激活函数就是logistic函数了。
在这里插入图片描述
但一旦维度≥3,就没有这种冗余的情况,所以采用one-hot编码和softmax函数。在这里插入图片描述
而且cross entropy对于这两个函数的导数的形式也是一样的。

关于为什么要用交叉熵作为softmax(logistic)的损失函数,可以参考这篇文章:损失函数|交叉熵损失函数

在神经网络中的应用

一般讲到的sigmoid函数就是指logistic函数,可以用作激活函数拟合任务和分类任务都需要激活函数,来让输出变得非线性,尤其是只有全连接层的神经网络。不过激活函数还有别的,比如relutanh等等;还可以用作二分类问题的最后一层。

softmax常用于多分类问题的最后一层,比如VGG模型。

cross entropy常用于分类问题的损失函数

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/989262
推荐阅读
  

闽ICP备14008679号