Datawhale AI 夏令营之NLP（二）——Transformer解决机器翻译

作者：代码探险家 | 2024-07-20 13:26:50

踩

文章目录

一、基础概念
二、上分技巧

一、基础概念

1.Seq2Seq模型

（1）Seq2Seq（序列到序列）模型，是一种处理序列数据的深度学习模型，尤其是在自然语言处理（NLP）领域中非常常见。这种模型通常用于机器翻译、文本摘要、问答系统和聊天机器人等任务。

（2）Seq2Seq模型的基本组成部分：

编码器（Encoder）
编码器的目的是将输入序列（如一句话或一段文本）转换成一个固定大小的内部表示，这个表示捕捉了输入序列的主要信息。
编码器通常由循环神经网络（RNN）、长短期记忆网络（LSTM）或门控循环单元（GRU）组成。
解码器（Decoder）
解码器的任务是使用编码器生成的内部表示来生成输出序列。在机器翻译中，输出序列通常是目标语言的文本。解码器也是基于RNN、LSTM或GRU，并且通常与编码器结构相似。
注意力机制（Attention Mechanism）
注意力机制允许解码器在生成输出序列的每一步时，能够“关注”输入序列中的不同部分。
这有助于模型更好地理解输入序列的上下文，并生成更准确的输出。

2.Transformer模型

2.1Transformer核心特点

自注意力机制（Self-Attention）
允许模型在处理序列的每个元素时，考虑序列中的所有位置，从而捕捉序列内部的依赖关系。
编码器-解码器架构（Encoder-Decoder Architecture）：
编码器将输入序列转换为连续表示，解码器则根据编码器的输出和之前的输出生成目标序列。
位置编码（Positional Encoding）
由于Transformer不使用循环网络结构，为了使模型能够理解序列的顺序，引入了位置编码。
多头注意力（Multi-Head Attention）
通过并行处理多个注意力机制，模型能够同时从不同的表示子空间捕捉信息。
残差连接（Residual Connections）
在每个子层的输出中加入输入，有助于缓解深层网络训练中的梯度消失问题。
层归一化（Layer Normalization）
在每个子层的输出中应用归一化，有助于稳定训练过程。

2.2. 关于Transformer你必须要知道的

（1）Transformer的Encoder模块
Transformer的Encoder模块是由一系列相同的层堆叠而成的，每一层都有两个主要的子模块：多头自注意力机制（Multi-Head Self-Attention）和前馈神经网络（Position-wise Feed-Forward Networks）。此外，每个子模块周围都有一个残差连接，并且每个子模块的输出都会经过层归一化（Layer Normalization）。
在这里插入图片描述
下面是对这些组件的详细说明：

多头自注意力机制（Multi-Head Self-Attention）
这个模块可以使网络在进行预测时考虑输入序列的不同位置，对不同位置的输入分配不同的注意力。多头注意力机制意味着模型有多组不同的注意力参数，每组都会输出一个注意力权重，这些注意力权重会被合并成最终的注意力输出。
残差连接（Residual Connection）
残差连接帮助避免了深度神经网络中的梯度消失问题。在Transformer中，每个子模块的输出是 LayerNorm(x + SubLayer(x))，其中SubLayer(x)是子模块自身（比如多头自注意力或前馈神经网络）的输出。
层归一化（Layer Normalization）
层归一化是在模型的训练过程中加速收敛的一种技术，它对层的输入进行归一化处理，使得其均值为0，方差为1。
前馈神经网络（Position-wise Feed-Forward Networks）
这个模块由两个线性变换组成，中间夹有一个ReLU激活函数。它对每个位置的词向量独立地进行变换。
位置编码（Position Encoding）
由于Transformer模型没有循环或卷积操作，为了让模型能够利用词的顺序信息，需要在输入嵌入层中加入位置编码。位置编码和词嵌入相加后输入到Encoder模块。

整体来看，Transformer的Encoder模块将输入序列转换为一系列连续表示，这些表示在后续的Decoder模块中用于生成输出序列。每一层的Encoder都对输入序列的所有位置同时进行操作，而不是像RNN那样逐个位置处理，这是Transformer模型高效并行处理的关键。

（2）为什么transformer块使用LayerNorm（层归一化）而不是BatchNorm（批量归一化）？
LayerNorm对每个样本做Normalization
BatchNorm对每个特征做Normalization
Normalization：归一化，均值变0方差为1

（3）Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别？
Decoder阶段的多头自注意力（Masked Multi-Head Attention）和Encoder的多头自注意力（Multi-Head Attention）在计算方式上非常相似，但存在关键的区别，主要体现在对序列中位置的处理上。

Encoder的多头自注意力
在Encoder的多头自注意力中，每个位置都可以自由地注意序列中的所有其他位置。这意味着计算注意力分数时，并没有位置上的限制。这种设置是因为在编码阶段，我们假定有完整的输入序列，并且每个词都可以依赖于上下文中的任何其他词来获得其表示。
Decoder的多头自注意力（带掩码）
在Decoder的多头自注意力中，为了保持自回归属性（即生成当前词只依赖于前面的词），我们需要确保在计算注意力分数时，每个位置只能注意到它前面的位置。为了实现这一点，我们使用了序列掩码（sequence mask）的技术。

二、上分技巧

加入术语词典，这是在此竞赛中比较有效的方法，加入术语词典的方法策略也有很多，如：
- 在模型生成的翻译输出中替换术语，这是最简单的方法
- 整合到数据预处理流程，确保它们在翻译中保持一致
- 在模型内部动态地调整术语的嵌入，这涉及到在模型中加入一个额外的层，该层负责查找术语词典中的术语，并为其生成专门的嵌入向量，然后将这些向量与常规的词嵌入结合使用
数据扩增：
- 回译（back-translation）：将源语言文本先翻译成目标语言，再将目标语言文本翻译回源语言，生成的新文本作为额外的训练数据
- 同义词替换：随机选择句子中的词，并用其同义词替换
- 使用句法分析和语义解析技术重新表述句子，保持原意不变
- 将文本翻译成多种语言后再翻译回原语言，以获得多样化翻译
采用更精细的学习率调度策略：
- Noam Scheduler：结合了warmup（预热）阶段和衰减阶段
- Step Decay：最简单的一种学习率衰减策略，每隔一定数量的epoch，学习率按固定比例衰减
- Cosine Annealing：学习率随周期性变化，通常从初始值下降到接近零，然后再逐渐上升
集成学习：训练多个不同初始化或架构的模型，并使用集成方法（如投票或平均）来产生最终翻译。这可以减少单一模型的过拟合风险，提高翻译的稳定性。

总结：
之前看过很多次transformer的理论知识都没学明白，包括它的框架图也不是很懂，这次终于算是看懂了，由一个编码器和解码器组成，编码器里面有多头注意力和前馈神经网络，分别都有残差连接，这样的n个transformer block就组成了编码器。解码器是在编码器的基础上多了带掩码的多头自注意力。

附：
Datawhale AI夏令营-Task3：基于Transformer解决机器翻译任务
 Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili
transformer模型— 20道面试题自我检测

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/代码探险家/article/detail/857054