笔触狂放9

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

Transformer架构；Encoder-Decoder；Padding Mask；Sequence Mask；

作者：笔触狂放9 | 2024-08-16 06:37:51

赞

踩

Transformer架构；Encoder-Decoder；Padding Mask；Sequence Mask；

目录

Transformer架构

Transformer架构的主要组成部分：

简单举例说明输入和输出：

Encoder-Decoder

编码器/解码器组成

6、位置前馈网络（Position-wise Feed-Forward Networks）

7、残差连接和层归一化

10、掩码Mask

10.1 Padding Mask

10.2 Sequence Mask

为什么需要Sequence Mask？

Sequence Mask是如何工作的？

为什么如果没有适当的掩码机制，解码器在生成某个位置的输出时，可能会“看到”并错误地利用该位置之后的信息

Transformer架构

Transformer架构是一种基于自注意力（Self-Attention）机制的深度学习模型，广泛应用于自然语言处理（NLP）领域。它摒弃了传统的循环神经网络（RNN）或卷积神经网络（CNN）结构，通过自注意力机制来捕捉输入序列中的依赖关系，从而实现高效的序列到序列（Seq2Seq）处理。

Transformer架构的主要组成部分：

输入层（Input Layer）：
- 输入层接收原始数据（如文本），并将其转换为模型可以处理的格式。这通常包括将文本转换为词嵌入（Word Embeddings），以及添加位置编码（Positional Encoding）以保留单词在序列中的位置信息。
编码器（Encoder）：
- 编码器由多个相同的层堆叠而成，每个层都包含自注意力机制（如多头注意

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号