赞
踩
sigmoid 函数:形状像S的函数。
logistic 函数:一种典型的sigmoid 函数,函数如下:
logit函数:logistic 函数的反函数,也有logistic unit的意思,类似于probit相对于标准正态分布的分布函数(也是S型的呢)的反函数,即probability unit,就是通过概率找到随机变量的值:
也叫log-odds函数,因为p/(1-p)在统计学中叫做odds,几率、可能性、胜率的意思。
logistic模型(logit模型):是一种回归模型,回归模型就是指对两个随机变量建立关系,比如线性关系就是线性回归模型,当因变量是离散值的时候用的一种模型,用来建模某一离散值的概率和自变量的关系,一个简单但是不太专业的理解可以看这篇文章:浅入深出被人看扁的逻辑回归。
softmax函数:是logistic 函数在多个维度的泛化,也叫归一化指数函数,函数如下:
softmax regression:多分类问题的回归模型
cross entropy:是信息论的一个概念,可以衡量关于同一组事件的实际分布p和估计分布q这两个概率分布之间的差异,公式如下:
cross entropy loss:在深度学习的分类任务中,神经网络的输出在[0,1]区间,可以看作估计概率分布,而one-hot标签可以看成实际概率分布,因此可以用交叉熵来作为损失函数,而且求出的导数也很简洁,然后梯度下降balabala。
其实一直很纳闷,到底是先有logistic,还是先有logit。
关于logit的理解可以看这篇文章:Logit究竟是个啥?——离散选择模型之三。
看了这一系列文章:Logistic回归的起源(上),感觉好像是先有logistic函数,然后提出了logistic(logit)模型,但是我在这篇文章里又感觉是反过来的:Logistic Regression – Why sigmoid function,是先有logit(p/(1-p))=wx+b,然后推出p=logistic(x),我上这门课的时候老师也是以这样的逻辑讲的:
(当时上课的时候以为明白了,现在查了很多资料之后觉得不太明白了……)
然后关于logistic和softmax,我的理解是这样的:
考虑softmax维度为2的时候,x1和x2两个变量其实是冗余的,所以其实只需要神经网络的最后一个线性层输出一个值就可以了,这个值就是t,那么线性层后面的激活函数就是logistic函数了。
但一旦维度≥3,就没有这种冗余的情况,所以采用one-hot编码和softmax函数。
而且cross entropy对于这两个函数的导数的形式也是一样的。
关于为什么要用交叉熵作为softmax(logistic)的损失函数,可以参考这篇文章:损失函数|交叉熵损失函数。
一般讲到的sigmoid函数就是指logistic函数,可以用作激活函数,拟合任务和分类任务都需要激活函数,来让输出变得非线性,尤其是只有全连接层的神经网络。不过激活函数还有别的,比如relu,tanh等等;还可以用作二分类问题的最后一层。
softmax常用于多分类问题的最后一层,比如VGG模型。
cross entropy常用于分类问题的损失函数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。