softmax-sigmoid辨析_分类网络最后一层

作者：weixin_40725706 | 2024-07-24 11:16:24

踩

分类网络最后一层

事物的本质不在于其外在形态,而在于其内在实质。" -亚里士多德

有很多概念纷繁复杂，放在一起统一的看待，会发现他们是同源的，这样理解更加深刻，记忆也会更加深刻。千万不能“着相”

softmax和sigmoid，在二分类的时候显然是一样的：

$softmax(x_1)=\frac{e^{x_1}}{e^{x_1}+e^{x_2}}=\frac{1}{1+e^{x_2-x_1}}$

$sigmoid(x_1)=\frac{1}{1+e^{-x_1}}$

可以看到，二者的输出形式都是一样的，求导的特点也是一样的。sigmoid其实可以看作是softmax在类别N等于2时的一个特例。

因为模拟神经元的受刺激与受抑制就属于二分类问题，所以sigmoid不仅用于分类网络的最后一层，也常用于隐藏层中的神经元连接处。

那么接下来看二者分别是怎么来的：

重新发明Sigmoid

表面上看，是sigmoid把线性回归的结果转换为了分类概率，sigmoid是一个性质更好的“阶跃”函数，但这样的sigmoid来得仿佛无衣无据。从“重新发明”的角度出发，实际上是先有了对数几率函数，把离散的概率分布连续化，然后再使用线性组合去拟合对数几率函数。这样同时也解释了为什么回归可以用于分类。

而sigmoid本身的一些优点，如求导简单， S'(x)=S(x)*(1-S(x)) ，只是意外之喜，而不是使用它的关键。因为sigmoid本身也有一些缺点，如梯度饱和，最大值是0.25，层层传递可能梯度消失；也不是zero-centered。这时就需要relu等不同的激活函数。所以，使用不同的激活函数也可以理解为线性回归拟合不同的目标。