Transformer模型原理细节解析

作者：代码探险家 | 2024-07-05 02:02:40

踩

Transformer模型原理细节解析

基本原理：
Transformer 的核心概念是自注意力机制（Self-Attention Mechanism），它允许模型在处理每个输入时“关注”输入序列的不同部分。这种机制让模型能够理解每个单词或符号与其他单词或符号之间的关系，而不是逐个地线性处理输入。

Transformer 主要由两个部分组成：

编码器（Encoder）：将输入序列转换为一个隐表示（向量表示）。
解码器（Decoder）：从隐表示生成输出序列。
编码器和解码器都由多个层（layers）组成，每层都包括一个自注意力机制和一个前馈神经网络（Feed-Forward Neural Network, FFN）。

在这里插入图片描述
整体组成：
Encoder block由6个encoder堆叠而成，一个Encoder由两个子层组成，即Multi-Head Attention和全连接神经网络Feed Forward Network，每个子层都采用了残差连接的结构，后面接一个layer_norm层。

Decoder block由6个decoder堆叠而成，一个Decoder包含两个 Multi-Head Attention 层。第一个 Multi-Head Attention 层采用了 Masked 操作。第二个 Multi-Head Attention 层的K, V

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/代码探险家/article/detail/788867