当前位置:   article > 正文

激活函数总结_relu6激活函数

relu6激活函数

sigmoid

公式:

f ( x ) = 1 1 + e − x f(x) = \frac{1}{1 + e^{-x}} f(x)=1+ex1

图像:
在这里插入图片描述


Tanh

公式:

f ( x ) = e x − e − x e x + e − x f(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} f(x)=ex+exexex

图像:
在这里插入图片描述


softplus

公式:

f ( x ) = l o g ( 1 + e x ) f(x) = log(1+e^x) f(x)=log(1+ex)

图像:
在这里插入图片描述


ReLU(Rectifier Linear Unit)系列

ReLU

公式:
f ( x ) = { 0 , x ≤ 0 x , x > 0 f(x) =

{0,x0x,x>0
f(x)={0,x,x0x>0
图像:
在这里插入图片描述


Leaky ReLU/ PReLU/ RReLU

公式:
f ( x ) = { α x , x ≤ 0 x , x > 0 f(x) =

{αx,x0x,x>0
f(x)={αx,x,x0x>0

  1. Leaky Relu: 通过设定一个 α \alpha α来解决当 x x x为负值的时候Relu为0的情况,通常 α \alpha α设定为0.01
  2. Parameter Relue: Leaky Relu的改进, PReLU的出发点是不将 α \alpha α设置为0.01,而是根据数据来定,这样就可以自适应地从数据中学习参数
  3. Randomized Relu: 是对Leaky ReLU的另一种改进。在训练时, α \alpha α是给定范围内取样的随机变量,而测试时 α \alpha α变为固定值。其表达式如下所示。这里 α \alpha α服从均匀分布,且满足0≤a<1。
    在这里插入图片描述

BReLU(Bounded ReLU)

公式:
f ( x ) = { 0 , x ≤ 0 x , 0 ≤ x ≤ n n , x > n f(x) =

{0,x0x,0xnn,x>n
f(x)=0,x,n,x00xnx>n

  1. ReLU6 就是将n设置为6, 此时的ReLU6的图像如下图所示:
    在这里插入图片描述

ELU

公式:
f ( x ) = { α ( e x − 1 ) , x ≤ 0 x , x > 0 f(x) =

{α(ex1),x0x,x>0
f(x)={α(ex1),x,x0x>0
图像:
在这里插入图片描述


SELU

公式:
f ( x ) = λ { α ( e x − 1 ) , x ≤ 0 x , x > 0 = λ ∗ E L U ( x ) f(x) = \lambda

{α(ex1),x0x,x>0
= \lambda * ELU(x) f(x)=λ{α(ex1),x,x0x>0=λELU(x)
图像:
在这里插入图片描述


GELU

公式:

f ( x ) = 0.5 x ( 1 + t a n h ( 2 / π ( x + 0.044715 x 3 ) ) ) f(x) = 0.5x (1 + tanh(\sqrt{2 / \pi} (x + 0.044715x^3))) f(x)=0.5x(1+tanh(2/π (x+0.044715x3)))

图像:
在这里插入图片描述


Swish

公式:

f ( x ) = x 1 1 + e − β x = x ∗ s i g m o i d ( β x ) f(x) = x\frac{1}{1 + e^{-\beta x}} = x * sigmoid(\beta x) f(x)=x1+eβx1=xsigmoid(βx)

在这里插入图片描述


Hard-Swish

公式:

f ( x ) = x R e l u 6 ( x + 3 ) 6 f(x) = x\frac{Relu6(x + 3)}{6} f(x)=x6Relu6(x+3)

图像:
在这里插入图片描述


Mish

公式:

f ( x ) = x ∗ t a n h ( l n ( 1 + e x ) ) f(x) = x * tanh(ln(1+e^x)) f(x)=xtanh(ln(1+ex))

图像:
在这里插入图片描述


Maxout

公式:

f ( x ) = m a x ( w 1 T x + b 1 , w 2 T x + b 2 , ⋅ ⋅ ⋅ , w n T x + b n ) f(x) = max(w^T_{1}x + b_1, w^T_{2}x + b_2, ···, w^T_{n}x + b_n) f(x)=max(w1Tx+b1,w2Tx+b2,,wnTx+bn)

  1. maxout激活函数并不是一个固定的函数,它是一个可以学习的函数,因为W参数是学习变化的,它是一个分段的线性函数.
  2. 然而任何一个凸函数,都可以由线性分段函数进行逼近近似。其实我们可以把以前所学到的激活函数:relu、abs激活函数,看成是分成两段的线性函数,如下示意图所示:
    在这里插入图片描述

Reference

https://blog.csdn.net/bqw18744018044/article/details/81193241
http://www.360doc.com/content/20/0323/23/99071_901255748.shtml
https://blog.csdn.net/weixin_39107928/article/details/102807920
https://blog.csdn.net/weixin_44106928/article/details/103072722
https://baijiahao.baidu.com/s?id=1653421414340022957&wfr=spider&for=pc

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/137353
推荐阅读
相关标签
  

闽ICP备14008679号