当前位置:   article > 正文

Transformer - layer norm_transformer layernorm结构

transformer layernorm结构
  1. Encoder structure

在这里插入图片描述
在这里插入图片描述
2. layer normalization:

  • 什么是covariate shift?
    Covariate shift is the change in the distribution of the covariates specifically, that is, the independent variables.
    在这里插入图片描述
    在这里插入图片描述
    机器学习实践中,我们一定要注意训练数据集和实际情况产生的数据分布不同而带来的影响。

  • batch norm vs layer norm

BN:
在这里插入图片描述
LN:
在这里插入图片描述

  • Layer normalized recurrent neural networks

在这里插入图片描述
its normalization terms dependonly on the summed inputs to a layer at the current time-step. It also has only one set of gain (g) and bias (b) parameters shared over all time-steps.

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/852435
推荐阅读
相关标签
  

闽ICP备14008679号