当前位置:   article > 正文

Transformer(Pytorch)部分讲解_number of encoder and decoder layers

number of encoder and decoder layers

前言

之前在看transformer的时候写了一篇文章,文章整体几乎是对着论文翻译过来的,最近也算是有时间看了看transformer的代码,也看了看别人文章的介绍,此处记录下来,方便自己以后查看。

前一篇介绍transformer的文章链接:

(4条消息) Transformer_Mr___WQ的博客-CSDN博客icon-default.png?t=M85Bhttps://blog.csdn.net/Mr___WQ/article/details/126629883?spm=1001.2014.3001.5502接下来对transformer的代码做简单介绍。

Transformer

1 模型参数

  1. # Transformer Parameters
  2. d_model = 512 # Embedding Size(词嵌入维度,此处设为512)
  3. # FeedForward dimension (两次线性层中的隐藏层 512->2048->512,
  4. #线性层是用来做特征提取的),当然最后会再接一个projection层
  5. d_ff = 2048 # Feed Forward 层隐藏神经元个数
  6. d_k = d_v = 64 # dimension of K(=Q), V(Q和K的维度需要相同,这里为了方便让K=V)
  7. n_layers = 6 # number of Encoder of Decoder Layer(Block的个数)
  8. n_heads = 8 # number of heads in Multi-Head Attention(有几个头)

2 Embedding层

Embedding层的作用是将某种格式的输入数据,例如文本,转变为模型可以处理的向量表示,来描述原始数据所包含的信息。

Embedding层输出的可以理解为当前时间步的特征,如果是文本任务,这里就可以是Word Embedding,如果是其他任务,就可以是任何合理方法所提取的特征。

构建Embedding层的代码很简单,核心是借助torch提供的nn.Embedding,如下:

  1. class Embeddings(nn.Module):
  2. def __init__(self, d_model, vocab):
  3. """
  4. 类的初始化函数
  5. d_model:指词嵌入的维度
  6. vocab:指词表的大小
  7. """
  8. super(Embeddings, self).__init__()
  9. #之后就是调用nn中的预定义层Embedding,获得一个词嵌入对象self.lut
  10. self.lut = nn.Embedding(vocab, d_model)
  11. #最后就是将d_model传入类中
  12. self.d_model =d_model
  13. def forward(self, x):
  14. """
  15. Embedding层的前向传播逻辑
  16. 参数x:这里代表输入给模型的单词文本通过词表映射后的one-hot向量
  17. 将x传给self.lut并与根号下self.d_model相乘作为结果返回
  18. """
  19. embedds = self.lut(x)
  20. return embedds * math.sqrt(self.d_model)

 此处为了简单测试,我们手动编码并加载数据,代码如下:

  1. entences = [
  2. # 中文和英语的单词个数不要求相同
  3. # enc_input dec_input dec_output
  4. ['我 有 一 个 好 朋 友 P', 'S I have a good friend .', 'I have a good friend . E'],
  5. ['我 有 零 个 女 朋 友 P', 'S I have zero girl friend .', 'I have zero girl friend . E'],
  6. ['我 有 一 个 男 朋 友 P', 'S I have a boy friend .', 'I have a boy friend . E']
  7. ]
  8. # 测试集(希望transformer能达到的效果)
  9. # 输入:"我 有 一 个 女 朋 友"
  10. # 输出:"i have a girlfriend"
  11. # 中文和英语的单词要分开建立词库
  12. # Padding Should be Zero
  13. src_vocab = {'P': 0, '我': 1, '有': 2, '一': 3,
  14. '个': 4, '好': 5, '朋': 6, '友': 7, '零': 8, '女': 9, '男': 10}
  15. src_idx2word = {i: w for i, w in enumerate(src_vocab)}
  16. src_vocab_size = len(src_vocab)
  17. tgt_vocab = {'P': 0, 'I': 1, 'have': 2, 'a': 3, 'good': 4,
  18. 'friend': 5, 'zero': 6, 'girl': 7, 'boy': 8, 'S': 9, 'E': 10, '.': 11}
  19. idx2word = {i: w for i, w in enumerate(tgt_vocab)}
  20. tgt_vocab_size = len(tgt_vocab)
  21. src_len = 8 # (源句子的长度)enc_input max sequence length
  22. tgt_len = 7 # dec_input(=dec_output) max sequence length
  23. def make_data(sentences):
  24. """把单词序列转换为数字序列"""
  25. enc_inputs, dec_inputs, dec_outputs = [], [], []
  26. for i in range(len(sentences)):
  27. enc_input = [[src_vocab[n] for n in sentences[i][0].split()]]
  28. dec_input = [[tgt_vocab[n] for n in sentences[i][1].split()]]
  29. dec_output = [[tgt_vocab[n] for n in sentences[i][2].split()]]
  30. #[[1, 2, 3, 4, 5, 6, 7, 0], [1, 2, 8, 4, 9, 6, 7, 0], [1, 2, 3, 4, 10, 6, 7, 0]]
  31. enc_inputs.extend(enc_input)
  32. #[[9, 1, 2, 3, 4, 5, 11], [9, 1, 2, 6, 7, 5, 11], [9, 1, 2, 3, 8, 5, 11]]
  33. dec_inputs.extend(dec_input)
  34. #[[1, 2, 3, 4, 5, 11, 10], [1, 2, 6, 7, 5, 11, 10], [1, 2, 3, 8, 5, 11, 10]]
  35. dec_outputs.extend(dec_output)
  36. return torch.LongTensor(enc_inputs), torch.LongTensor(dec_inputs), torch.LongTensor(dec_outputs)
  37. class MyDataSet(Data.Dataset):
  38. """自定义DataLoader"""
  39. def __init__(self, enc_inputs, dec_inputs, dec_outputs):
  40. super(MyDataSet, self).__init__()
  41. self.enc_inputs = enc_inputs
  42. self.dec_inputs = dec_inputs
  43. self.dec_outputs = dec_outputs
  44. def __len__(self):
  45. return self.enc_inputs.shape[0]
  46. def __getitem__(self, idx):
  47. return self.enc_inputs[idx], self.dec_inputs[idx], self.dec_outputs[idx]
  48. loader = Data.DataLoader(
  49. MyDataSet(enc_inputs, dec_inputs, dec_outputs), 2, True)

3 位置编码 Positional Encoding

Positional Encoding 的计算公式如下:

至于为何要用上面的计算公式,详见Transformer中的Positional Encoding - mathor (wmathor.com)icon-default.png?t=M85Bhttps://wmathor.com/index.php/archives/1453/公式中的sin和cos 对应着 embedding_dimension 维度的一组奇数和偶数的序号的维度。例如 0,1 一组,2,3 一组,分别用上面的sin和cos函数做处理从而产生不同的周期性变化,而位置嵌入在
embedding_dimension维度上随着维度序号增大,周期变化会越来越慢。

代码如下:

  1. import numpy as np
  2. import seaborn as sns
  3. import math
  4. def get_positional_encoding(max_seq_len, embed_dim):
  5. # 初始化一个positional encoding
  6. # embed_dim: 字嵌入的维度
  7. # max_seq_len: 最大的序列长度
  8. positional_encoding = np.array([
  9. [pos / np.power(10000, 2 * i / embed_dim) for i in range(embed_dim)]
  10. if pos != 0 else np.zeros(embed_dim) for pos in range(max_seq_len)])
  11. positional_encoding[1:, 0::2] = np.sin(positional_encoding[1:, 0::2]) # dim 2i 偶数
  12. positional_encoding[1:, 1::2] = np.cos(positional_encoding[1:, 1::2]) # dim 2i+1 奇数
  13. return positional_encoding

4 Mask

Transformer中有两个部分用到了mask,第一个由于在网络的训练过程中同一个batch会包含有多个文本序列,而不同的序列长度并不一致。因此在数据集的生成过程中,就需要将同一个batch中的序列Padding到相同的长度。但是,这样就会导致在注意力的计算过程中会考虑到Padding位置上的信息。扩充的部分不应该被注意到,因此需要Mask操作l,称为Padding Mask;第二个则是在训练过程中对于每一个样本来说都需要这样一个对称矩阵来掩盖掉当前时刻之后所有位置的信息,称为Attention Mask。

代码如下:

  1. def get_attn_pad_mask(seq_q, seq_k):
  2. # pad mask的作用:在对value向量加权平均的时候,可以让pad对应的alpha_ij=0,这样注意力就不会考虑到pad向量
  3. """这里的q,k表示的是两个序列(跟注意力机制的q,k没有关系),例如encoder_inputs (x1,x2,..xm)和encoder_inputs (x1,x2..xm)
  4. encoder和decoder都可能调用这个函数,所以seq_len视情况而定
  5. seq_q: [batch_size, seq_len]
  6. seq_k: [batch_size, seq_len]
  7. seq_len could be src_len or it could be tgt_len
  8. seq_len in seq_q and seq_len in seq_k maybe not equal
  9. """
  10. batch_size, len_q = seq_q.size() # 这个seq_q只是用来expand维度的
  11. batch_size, len_k = seq_k.size()
  12. # eq(zero) is PAD token
  13. # 例如:seq_k = [[1,2,3,4,0], [1,2,3,5,0]]
  14. # [batch_size, 1, len_k], True is masked
  15. pad_attn_mask = seq_k.data.eq(0).unsqueeze(1)
  16. # [batch_size, len_q, len_k] 构成一个立方体(batch_size个这样的矩阵)
  17. return pad_attn_mask.expand(batch_size, len_q, len_k)
  18. """这个函数最核心的一句代码是 seq_k.data.eq(0),
  19. 这句的作用是返回一个大小和 seq_k 一样的 tensor,
  20. 只不过里面的值只有 True 和 False。
  21. 如果 seq_k 某个位置的值等于 0,
  22. 那么对应位置就是 True,否则即为 False。
  23. 举个例子,输入为 seq_data = [1, 2, 3, 4, 0],
  24. seq_data.data.eq(0) 就会返回
  25. [False, False, False, False, True]
  26. """
  27. def get_attn_subsequence_mask(seq):
  28. """建议打印出来看看是什么的输出(一目了然)
  29. seq: [batch_size, tgt_len]
  30. """
  31. attn_shape = [seq.size(0), seq.size(1), seq.size(1)]
  32. # attn_shape: [batch_size, tgt_len, tgt_len]
  33. subsequence_mask = np.triu(np.ones(attn_shape), k=1) # 生成一个上三角矩阵
  34. subsequence_mask = torch.from_numpy(subsequence_mask).byte()
  35. return subsequence_mask # [batch_size, tgt_len, tgt_len]
  36. """
  37. get_attn_subsequence_mask 只有 Decoder 会用到,
  38. 主要作用是屏蔽未来时刻单词的信息。
  39. 首先通过 np.ones() 生成一个全 1 的方阵,
  40. 然后通过 np.triu() 生成一个上三角矩阵
  41. """

 5 ScaledDotProductAttention

 

这里要做的是,通过 Q 和 K 计算出 scores,然后将 scores 和 V 相乘,得到每个单词的 context vector。

第一步是将 Q 和 K 的转置相乘没什么好说的,相乘之后得到的 scores 还不能立刻进行 softmax,需要和 attn_mask 相加,把一些需要屏蔽的信息屏蔽掉,attn_mask 是一个仅由 True 和 False 组成的 tensor,并且一定会保证 attn_mask 和 scores 的维度四个值相同(不然无法做对应位置相加)mask 完了之后,就可以对 scores 进行 softmax 了。然后再与 V 相乘,得到 context。

计算图解如下:

这个分数表的含义如下:

        当模型处理数据集中的第 1 个数据(第 1 行),其中只包含着一个单词 (robot),它将 100% 的注意力集中在这个单词上。
        当模型处理数据集中的第 2 个数据(第 2 行),其中包含着单词(robot must)。当模型处理单词 must,它将 42% 的注意力集中在 robot,将 57% 的注意力集中在 must。
        诸如此类,继续处理后面的单词。

补充说明:

 

代码如下:

  1. class ScaledDotProductAttention(nn.Module):
  2. def __init__(self):
  3. super(ScaledDotProductAttention, self).__init__()
  4. def forward(self, Q, K, V, attn_mask):
  5. """
  6. Q: [batch_size, n_heads, len_q, d_k]
  7. K: [batch_size, n_heads, len_k, d_k]
  8. V: [batch_size, n_heads, len_v(=len_k), d_v]
  9. attn_mask: [batch_size, n_heads, seq_len, seq_len]
  10. 说明:在encoder-decoder的Attention层中len_q(q1,..qt)和len_k(k1,...km)可能不同
  11. """
  12. scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k) # scores : [batch_size, n_heads, len_q, len_k]
  13. # mask矩阵填充scores(用-1e9填充scores中与attn_mask中值为1位置相对应的元素)
  14. scores.masked_fill_(attn_mask, -1e9) # Fills elements of self tensor with value where mask is True.
  15. attn = nn.Softmax(dim=-1)(scores) # 对最后一个维度(v)做softmax
  16. # scores : [batch_size, n_heads, len_q, len_k] * V: [batch_size, n_heads, len_v(=len_k), d_v]
  17. context = torch.matmul(attn, V) # context: [batch_size, n_heads, len_q, d_v]
  18. # context:[[z1,z2,...],[...]]向量, attn注意力稀疏矩阵(用于可视化的)
  19. return context, attn

6 Feed Forward和Add&Norm

  1. # Pytorch中的Linear只会对最后一维操作,所以正好是我们希望的每个位置用同一个全连接网络
  2. class PoswiseFeedForwardNet(nn.Module):
  3. def __init__(self):
  4. super(PoswiseFeedForwardNet, self).__init__()
  5. self.fc = nn.Sequential(
  6. nn.Linear(d_model, d_ff, bias=False),
  7. nn.ReLU(),
  8. nn.Linear(d_ff, d_model, bias=False)
  9. )
  10. def forward(self, inputs):
  11. """
  12. inputs: [batch_size, seq_len, d_model]
  13. """
  14. residual = inputs
  15. output = self.fc(inputs)
  16. return nn.LayerNorm(d_model).to(device)(output + residual) # [batch_size, seq_len, d_model]

 7 MultiHeadAttention

多个self-attention的组合:

  1. class MultiHeadAttention(nn.Module):
  2. """这个Attention类可以实现:
  3. Encoder的Self-Attention
  4. Decoder的Masked Self-Attention
  5. Encoder-Decoder的Attention
  6. 输入:seq_len x d_model
  7. 输出:seq_len x d_model
  8. """
  9. def __init__(self):
  10. super(MultiHeadAttention, self).__init__()
  11. self.W_Q = nn.Linear(d_model, d_k * n_heads,
  12. bias=False) # q,k必须维度相同,不然无法做点积
  13. self.W_K = nn.Linear(d_model, d_k * n_heads, bias=False)
  14. self.W_V = nn.Linear(d_model, d_v * n_heads, bias=False)
  15. # 这个全连接层可以保证多头attention的输出仍然是seq_len x d_model
  16. self.fc = nn.Linear(n_heads * d_v, d_model, bias=False)
  17. def forward(self, input_Q, input_K, input_V, attn_mask):
  18. """
  19. input_Q: [batch_size, len_q, d_model]
  20. input_K: [batch_size, len_k, d_model]
  21. input_V: [batch_size, len_v(=len_k), d_model]
  22. attn_mask: [batch_size, seq_len, seq_len]
  23. """
  24. residual, batch_size = input_Q, input_Q.size(0)
  25. # 下面的多头的参数矩阵是放在一起做线性变换的,然后再拆成多个头,这是工程实现的技巧
  26. # B: batch_size, S:seq_len, D: dim
  27. # (B, S, D) -proj-> (B, S, D_new) -split-> (B, S, Head, W) -trans-> (B, Head, S, W)
  28. # 线性变换 拆成多头
  29. # Q: [batch_size, n_heads, len_q, d_k]
  30. Q = self.W_Q(input_Q).view(batch_size, -1,
  31. n_heads, d_k).transpose(1, 2)
  32. # K: [batch_size, n_heads, len_k, d_k] # K和V的长度一定相同,维度可以不同
  33. K = self.W_K(input_K).view(batch_size, -1,
  34. n_heads, d_k).transpose(1, 2)
  35. # V: [batch_size, n_heads, len_v(=len_k), d_v]
  36. V = self.W_V(input_V).view(batch_size, -1,
  37. n_heads, d_v).transpose(1, 2)
  38. # 因为是多头,所以mask矩阵要扩充成4维的
  39. # attn_mask: [batch_size, seq_len, seq_len] -> [batch_size, n_heads, seq_len, seq_len]
  40. attn_mask = attn_mask.unsqueeze(1).repeat(1, n_heads, 1, 1)
  41. # context: [batch_size, n_heads, len_q, d_v], attn: [batch_size, n_heads, len_q, len_k]
  42. context, attn = ScaledDotProductAttention()(Q, K, V, attn_mask)
  43. # 下面将不同头的输出向量拼接在一起
  44. # context: [batch_size, n_heads, len_q, d_v] -> [batch_size, len_q, n_heads * d_v]
  45. context = context.transpose(1, 2).reshape(
  46. batch_size, -1, n_heads * d_v)
  47. # 这个全连接层可以保证多头attention的输出仍然是seq_len x d_model
  48. output = self.fc(context) # [batch_size, len_q, d_model]
  49. return nn.LayerNorm(d_model).to(device)(output + residual), attn

完整代码中一定会有三处地方调用 MultiHeadAttention(),Encoder Layer 调用一次,传入的 input_Q、input_K、input_V 全部都是 enc_inputs;Decoder Layer 中两次调用,第一次传入的全是 dec_inputs,第二次传入的分别是 dec_outputs,enc_outputs,enc_outputs。

8 Encoder Layer

  1. class EncoderLayer(nn.Module):
  2. def __init__(self):
  3. super(EncoderLayer, self).__init__()
  4. self.enc_self_attn = MultiHeadAttention()
  5. self.pos_ffn = PoswiseFeedForwardNet()
  6. def forward(self, enc_inputs, enc_self_attn_mask):
  7. """E
  8. enc_inputs: [batch_size, src_len, d_model]
  9. enc_self_attn_mask: [batch_size, src_len, src_len] mask矩阵(pad mask or sequence mask)
  10. """
  11. # enc_outputs: [batch_size, src_len, d_model], attn: [batch_size, n_heads, src_len, src_len]
  12. # 第一个enc_inputs * W_Q = Q
  13. # 第二个enc_inputs * W_K = K
  14. # 第三个enc_inputs * W_V = V
  15. enc_outputs, attn = self.enc_self_attn(enc_inputs, enc_inputs, enc_inputs,
  16. enc_self_attn_mask) # enc_inputs to same Q,K,V(未线性变换前)
  17. enc_outputs = self.pos_ffn(enc_outputs)
  18. # enc_outputs: [batch_size, src_len, d_model]
  19. return enc_outputs, attn

 9 Encoder

  1. class Encoder(nn.Module):
  2. def __init__(self):
  3. super(Encoder, self).__init__()
  4. self.src_emb = nn.Embedding(src_vocab_size, d_model) # token Embedding
  5. self.pos_emb = PositionalEncoding(
  6. d_model) # Transformer中位置编码时固定的,不需要学习
  7. self.layers = nn.ModuleList([EncoderLayer() for _ in range(n_layers)])
  8. def forward(self, enc_inputs):
  9. """
  10. enc_inputs: [batch_size, src_len]
  11. """
  12. enc_outputs = self.src_emb(
  13. enc_inputs) # [batch_size, src_len, d_model]
  14. enc_outputs = self.pos_emb(enc_outputs.transpose(0, 1)).transpose(
  15. 0, 1) # [batch_size, src_len, d_model]
  16. # Encoder输入序列的pad mask矩阵
  17. enc_self_attn_mask = get_attn_pad_mask(
  18. enc_inputs, enc_inputs) # [batch_size, src_len, src_len]
  19. enc_self_attns = [] # 在计算中不需要用到,它主要用来保存你接下来返回的attention的值(这个主要是为了你画热力图等,用来看各个词之间的关系
  20. for layer in self.layers: # for循环访问nn.ModuleList对象
  21. # 上一个block的输出enc_outputs作为当前block的输入
  22. # enc_outputs: [batch_size, src_len, d_model], enc_self_attn: [batch_size, n_heads, src_len, src_len]
  23. enc_outputs, enc_self_attn = layer(enc_outputs,
  24. enc_self_attn_mask) # 传入的enc_outputs其实是input,传入mask矩阵是因为你要做self attention
  25. enc_self_attns.append(enc_self_attn) # 这个只是为了可视化
  26. return enc_outputs, enc_self_attns

10 Decoder Layer

  1. class DecoderLayer(nn.Module):
  2. def __init__(self):
  3. super(DecoderLayer, self).__init__()
  4. self.dec_self_attn = MultiHeadAttention()
  5. self.dec_enc_attn = MultiHeadAttention()
  6. self.pos_ffn = PoswiseFeedForwardNet()
  7. def forward(self, dec_inputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask):
  8. """
  9. dec_inputs: [batch_size, tgt_len, d_model]
  10. enc_outputs: [batch_size, src_len, d_model]
  11. dec_self_attn_mask: [batch_size, tgt_len, tgt_len]
  12. dec_enc_attn_mask: [batch_size, tgt_len, src_len]
  13. """
  14. # dec_outputs: [batch_size, tgt_len, d_model], dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len]
  15. dec_outputs, dec_self_attn = self.dec_self_attn(dec_inputs, dec_inputs, dec_inputs,
  16. dec_self_attn_mask) # 这里的Q,K,V全是Decoder自己的输入
  17. # dec_outputs: [batch_size, tgt_len, d_model], dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]
  18. dec_outputs, dec_enc_attn = self.dec_enc_attn(dec_outputs, enc_outputs, enc_outputs,
  19. dec_enc_attn_mask) # Attention层的Q(来自decoder) 和 K,V(来自encoder)
  20. # [batch_size, tgt_len, d_model]
  21. dec_outputs = self.pos_ffn(dec_outputs)
  22. # dec_self_attn, dec_enc_attn这两个是为了可视化的
  23. return dec_outputs, dec_self_attn, dec_enc_attn

 11 Decoder

  1. class Decoder(nn.Module):
  2. def __init__(self):
  3. super(Decoder, self).__init__()
  4. self.tgt_emb = nn.Embedding(
  5. tgt_vocab_size, d_model) # Decoder输入的embed词表
  6. self.pos_emb = PositionalEncoding(d_model)
  7. self.layers = nn.ModuleList([DecoderLayer()
  8. for _ in range(n_layers)]) # Decoder的blocks
  9. def forward(self, dec_inputs, enc_inputs, enc_outputs):
  10. """
  11. dec_inputs: [batch_size, tgt_len]
  12. enc_inputs: [batch_size, src_len]
  13. enc_outputs: [batch_size, src_len, d_model] # 用在Encoder-Decoder Attention层
  14. """
  15. dec_outputs = self.tgt_emb(
  16. dec_inputs) # [batch_size, tgt_len, d_model]
  17. dec_outputs = self.pos_emb(dec_outputs.transpose(0, 1)).transpose(0, 1).to(
  18. device) # [batch_size, tgt_len, d_model]
  19. # Decoder输入序列的pad mask矩阵(这个例子中decoder是没有加pad的,实际应用中都是有pad填充的)
  20. dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs).to(
  21. device) # [batch_size, tgt_len, tgt_len]
  22. # Masked Self_Attention:当前时刻是看不到未来的信息的
  23. dec_self_attn_subsequence_mask = get_attn_subsequence_mask(dec_inputs).to(
  24. device) # [batch_size, tgt_len, tgt_len]
  25. # Decoder中把两种mask矩阵相加(既屏蔽了pad的信息,也屏蔽了未来时刻的信息)
  26. dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequence_mask),
  27. 0).to(device) # [batch_size, tgt_len, tgt_len]; torch.gt比较两个矩阵的元素,大于则返回1,否则返回0
  28. # 这个mask主要用于encoder-decoder attention层
  29. # get_attn_pad_mask主要是enc_inputs的pad mask矩阵(因为enc是处理K,V的,求Attention时是用v1,v2,..vm去加权的,要把pad对应的v_i的相关系数设为0,这样注意力就不会关注pad向量)
  30. # dec_inputs只是提供expand的size的
  31. dec_enc_attn_mask = get_attn_pad_mask(
  32. dec_inputs, enc_inputs) # [batc_size, tgt_len, src_len]
  33. dec_self_attns, dec_enc_attns = [], []
  34. for layer in self.layers:
  35. # dec_outputs: [batch_size, tgt_len, d_model], dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len], dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]
  36. # Decoder的Block是上一个Block的输出dec_outputs(变化)和Encoder网络的输出enc_outputs(固定)
  37. dec_outputs, dec_self_attn, dec_enc_attn = layer(dec_outputs, enc_outputs, dec_self_attn_mask,
  38. dec_enc_attn_mask)
  39. dec_self_attns.append(dec_self_attn)
  40. dec_enc_attns.append(dec_enc_attn)
  41. # dec_outputs: [batch_size, tgt_len, d_model]
  42. return dec_outputs, dec_self_attns, dec_enc_attns

 12 Transformer

  1. class Transformer(nn.Module):
  2. def __init__(self):
  3. super(Transformer, self).__init__()
  4. self.encoder = Encoder().to(device)
  5. self.decoder = Decoder().to(device)
  6. self.projection = nn.Linear(
  7. d_model, tgt_vocab_size, bias=False).to(device)
  8. def forward(self, enc_inputs, dec_inputs):
  9. """Transformers的输入:两个序列
  10. enc_inputs: [batch_size, src_len]
  11. dec_inputs: [batch_size, tgt_len]
  12. """
  13. # tensor to store decoder outputs
  14. # outputs = torch.zeros(batch_size, tgt_len, tgt_vocab_size).to(self.device)
  15. # enc_outputs: [batch_size, src_len, d_model], enc_self_attns: [n_layers, batch_size, n_heads, src_len, src_len]
  16. # 经过Encoder网络后,得到的输出还是[batch_size, src_len, d_model]
  17. enc_outputs, enc_self_attns = self.encoder(enc_inputs)
  18. # dec_outputs: [batch_size, tgt_len, d_model], dec_self_attns: [n_layers, batch_size, n_heads, tgt_len, tgt_len], dec_enc_attn: [n_layers, batch_size, tgt_len, src_len]
  19. dec_outputs, dec_self_attns, dec_enc_attns = self.decoder(
  20. dec_inputs, enc_inputs, enc_outputs)
  21. # dec_outputs: [batch_size, tgt_len, d_model] -> dec_logits: [batch_size, tgt_len, tgt_vocab_size]
  22. dec_logits = self.projection(dec_outputs)
  23. return dec_logits.view(-1, dec_logits.size(-1)), enc_self_attns, dec_self_attns, dec_enc_attns

train 

  1. model = Transformer().to(device)
  2. # 这里的损失函数里面设置了一个参数 ignore_index=0,因为 "pad" 这个单词的索引为 0,这样设置以后,就不会计算 "pad" 的损失(因为本来 "pad" 也没有意义,不需要计算)
  3. criterion = nn.CrossEntropyLoss(ignore_index=0)
  4. optimizer = optim.SGD(model.parameters(), lr=1e-3,
  5. momentum=0.99) # 用adam的话效果不好
  6. for epoch in range(epochs):
  7. for enc_inputs, dec_inputs, dec_outputs in loader:
  8. """
  9. enc_inputs: [batch_size, src_len]
  10. dec_inputs: [batch_size, tgt_len]
  11. dec_outputs: [batch_size, tgt_len]
  12. """
  13. enc_inputs, dec_inputs, dec_outputs = enc_inputs.to(
  14. device), dec_inputs.to(device), dec_outputs.to(device)
  15. # outputs: [batch_size * tgt_len, tgt_vocab_size]
  16. outputs, enc_self_attns, dec_self_attns, dec_enc_attns = model(
  17. enc_inputs, dec_inputs)
  18. # dec_outputs.view(-1):[batch_size * tgt_len * tgt_vocab_size]
  19. loss = criterion(outputs, dec_outputs.view(-1))
  20. print('Epoch:', '%04d' % (epoch + 1), 'loss =', '{:.6f}'.format(loss))
  21. optimizer.zero_grad()
  22. loss.backward()
  23. optimizer.step()

输出:

  1. def greedy_decoder(model, enc_input, start_symbol):
  2. """贪心编码
  3. For simplicity, a Greedy Decoder is Beam search when K=1. This is necessary for inference as we don't know the
  4. target sequence input. Therefore we try to generate the target input word by word, then feed it into the transformer.
  5. Starting Reference: http://nlp.seas.harvard.edu/2018/04/03/attention.html#greedy-decoding
  6. :param model: Transformer Model
  7. :param enc_input: The encoder input
  8. :param start_symbol: The start symbol. In this example it is 'S' which corresponds to index 4
  9. :return: The target input
  10. """
  11. enc_outputs, enc_self_attns = model.encoder(enc_input)
  12. # 初始化一个空的tensor: tensor([], size=(1, 0), dtype=torch.int64)
  13. dec_input = torch.zeros(1, 0).type_as(enc_input.data)
  14. terminal = False
  15. next_symbol = start_symbol
  16. while not terminal:
  17. # 预测阶段:dec_input序列会一点点变长(每次添加一个新预测出来的单词)
  18. dec_input = torch.cat([dec_input.to(device), torch.tensor([[next_symbol]], dtype=enc_input.dtype).to(device)],
  19. -1)
  20. dec_outputs, _, _ = model.decoder(dec_input, enc_input, enc_outputs)
  21. projected = model.projection(dec_outputs)
  22. prob = projected.squeeze(0).max(dim=-1, keepdim=False)[1]
  23. # 增量更新(我们希望重复单词预测结果是一样的)
  24. # 我们在预测是会选择性忽略重复的预测的词,只摘取最新预测的单词拼接到输入序列中
  25. # 拿出当前预测的单词(数字)。我们用x'_t对应的输出z_t去预测下一个单词的概率,不用z_1,z_2..z_{t-1}
  26. next_word = prob.data[-1]
  27. next_symbol = next_word
  28. if next_symbol == tgt_vocab["E"]:
  29. terminal = True
  30. # print(next_word)
  31. # greedy_dec_predict = torch.cat(
  32. # [dec_input.to(device), torch.tensor([[next_symbol]], dtype=enc_input.dtype).to(device)],
  33. # -1)
  34. greedy_dec_predict = dec_input[:, 1:]
  35. return greedy_dec_predict
  36. # ==========================================================================================
  37. # 预测阶段
  38. # 测试集
  39. sentences = [
  40. # enc_input dec_input dec_output
  41. ['我 有 零 个 女 朋 友 P', '', '']
  42. ]
  43. enc_inputs, dec_inputs, dec_outputs = make_data(sentences)
  44. test_loader = Data.DataLoader(
  45. MyDataSet(enc_inputs, dec_inputs, dec_outputs), 2, True)
  46. enc_inputs, _, _ = next(iter(test_loader))
  47. print()
  48. print("="*30)
  49. print("利用训练好的Transformer模型将中文句子'我 有 零 个 女 朋 友' 翻译成英文句子: ")
  50. for i in range(len(enc_inputs)):
  51. greedy_dec_predict = greedy_decoder(model, enc_inputs[i].view(
  52. 1, -1).to(device), start_symbol=tgt_vocab["S"])
  53. print(enc_inputs[i], '->', greedy_dec_predict.squeeze())
  54. print([src_idx2word[t.item()] for t in enc_inputs[i]], '->',
  55. [idx2word[n.item()] for n in greedy_dec_predict.squeeze()])

完整代码

源码参考:

nlp-tutorial/Transformer_Torch.py at master · wmathor/nlp-tutorial (github.com)icon-default.png?t=M85Bhttps://github.com/wmathor/nlp-tutorial/blob/master/5-1.Transformer/Transformer_Torch.py参考:

Transformer 代码详解(Pytorch版)_@左左@右右的博客-CSDN博客_transformer代码icon-default.png?t=M85Bhttps://blog.csdn.net/BXD1314/article/details/126187598

  1. # ======================================
  2. # === Pytorch手写Transformer完整代码
  3. # ======================================
  4. """
  5. code by Tae Hwan Jung(Jeff Jung) @graykode, Derek Miller @dmmiller612, modify by shwei
  6. Reference: https://github.com/jadore801120/attention-is-all-you-need-pytorch
  7. https://github.com/JayParks/transformer
  8. """
  9. # ====================================================================================================
  10. # 数据构建
  11. import math
  12. import torch
  13. import numpy as np
  14. import torch.nn as nn
  15. import torch.optim as optim
  16. import torch.utils.data as Data
  17. device = 'cpu'
  18. #device = 'cuda'
  19. # transformer epochs
  20. epochs = 100
  21. # epochs = 1000
  22. # 这里我没有用什么大型的数据集,而是手动输入了两对中文→英语的句子
  23. # 还有每个字的索引也是我手动硬编码上去的,主要是为了降低代码阅读难度
  24. # S: Symbol that shows starting of decoding input
  25. # E: Symbol that shows starting of decoding output
  26. # P: Symbol that will fill in blank sequence if current batch data size is short than time steps
  27. # 训练集
  28. sentences = [
  29. # 中文和英语的单词个数不要求相同
  30. # enc_input dec_input dec_output
  31. ['我 有 一 个 好 朋 友 P', 'S I have a good friend .', 'I have a good friend . E'],
  32. ['我 有 零 个 女 朋 友 P', 'S I have zero girl friend .', 'I have zero girl friend . E'],
  33. ['我 有 一 个 男 朋 友 P', 'S I have a boy friend .', 'I have a boy friend . E']
  34. ]
  35. # 测试集(希望transformer能达到的效果)
  36. # 输入:"我 有 一 个 女 朋 友"
  37. # 输出:"i have a girlfriend"
  38. # 中文和英语的单词要分开建立词库
  39. # Padding Should be Zero
  40. src_vocab = {'P': 0, '我': 1, '有': 2, '一': 3,
  41. '个': 4, '好': 5, '朋': 6, '友': 7, '零': 8, '女': 9, '男': 10}
  42. src_idx2word = {i: w for i, w in enumerate(src_vocab)}
  43. src_vocab_size = len(src_vocab)
  44. tgt_vocab = {'P': 0, 'I': 1, 'have': 2, 'a': 3, 'good': 4,
  45. 'friend': 5, 'zero': 6, 'girl': 7, 'boy': 8, 'S': 9, 'E': 10, '.': 11}
  46. idx2word = {i: w for i, w in enumerate(tgt_vocab)}
  47. tgt_vocab_size = len(tgt_vocab)
  48. src_len = 8 # (源句子的长度)enc_input max sequence length
  49. tgt_len = 7 # dec_input(=dec_output) max sequence length
  50. # Transformer Parameters
  51. d_model = 512 # Embedding Size(token embedding和position编码的维度)
  52. # FeedForward dimension (两次线性层中的隐藏层 512->2048->512,线性层是用来做特征提取的),当然最后会再接一个projection层
  53. d_ff = 2048
  54. d_k = d_v = 64 # dimension of K(=Q), V(Q和K的维度需要相同,这里为了方便让K=V)
  55. n_layers = 6 # number of Encoder of Decoder Layer(Block的个数)
  56. n_heads = 8 # number of heads in Multi-Head Attention(有几套头)
  57. # ==============================================================================================
  58. # 数据构建
  59. def make_data(sentences):
  60. """把单词序列转换为数字序列"""
  61. enc_inputs, dec_inputs, dec_outputs = [], [], []
  62. for i in range(len(sentences)):
  63. enc_input = [[src_vocab[n] for n in sentences[i][0].split()]]
  64. dec_input = [[tgt_vocab[n] for n in sentences[i][1].split()]]
  65. dec_output = [[tgt_vocab[n] for n in sentences[i][2].split()]]
  66. #[[1, 2, 3, 4, 5, 6, 7, 0], [1, 2, 8, 4, 9, 6, 7, 0], [1, 2, 3, 4, 10, 6, 7, 0]]
  67. enc_inputs.extend(enc_input)
  68. #[[9, 1, 2, 3, 4, 5, 11], [9, 1, 2, 6, 7, 5, 11], [9, 1, 2, 3, 8, 5, 11]]
  69. dec_inputs.extend(dec_input)
  70. #[[1, 2, 3, 4, 5, 11, 10], [1, 2, 6, 7, 5, 11, 10], [1, 2, 3, 8, 5, 11, 10]]
  71. dec_outputs.extend(dec_output)
  72. return torch.LongTensor(enc_inputs), torch.LongTensor(dec_inputs), torch.LongTensor(dec_outputs)
  73. enc_inputs, dec_inputs, dec_outputs = make_data(sentences)
  74. class MyDataSet(Data.Dataset):
  75. """自定义DataLoader"""
  76. def __init__(self, enc_inputs, dec_inputs, dec_outputs):
  77. super(MyDataSet, self).__init__()
  78. self.enc_inputs = enc_inputs
  79. self.dec_inputs = dec_inputs
  80. self.dec_outputs = dec_outputs
  81. def __len__(self):
  82. return self.enc_inputs.shape[0]
  83. def __getitem__(self, idx):
  84. return self.enc_inputs[idx], self.dec_inputs[idx], self.dec_outputs[idx]
  85. loader = Data.DataLoader(
  86. MyDataSet(enc_inputs, dec_inputs, dec_outputs), 2, True)
  87. # ====================================================================================================
  88. # Transformer模型
  89. class PositionalEncoding(nn.Module):
  90. def __init__(self, d_model, dropout=0.1, max_len=5000):
  91. super(PositionalEncoding, self).__init__()
  92. self.dropout = nn.Dropout(p=dropout)
  93. pe = torch.zeros(max_len, d_model)
  94. position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
  95. div_term = torch.exp(torch.arange(
  96. 0, d_model, 2).float() * (-math.log(10000.0) / d_model))
  97. pe[:, 0::2] = torch.sin(position * div_term)
  98. pe[:, 1::2] = torch.cos(position * div_term)
  99. pe = pe.unsqueeze(0).transpose(0, 1)
  100. self.register_buffer('pe', pe)
  101. def forward(self, x):
  102. """
  103. x: [seq_len, batch_size, d_model]
  104. """
  105. x = x + self.pe[:x.size(0), :]
  106. return self.dropout(x)
  107. def get_attn_pad_mask(seq_q, seq_k):
  108. # pad mask的作用:在对value向量加权平均的时候,可以让pad对应的alpha_ij=0,这样注意力就不会考虑到pad向量
  109. """这里的q,k表示的是两个序列(跟注意力机制的q,k没有关系),例如encoder_inputs (x1,x2,..xm)和encoder_inputs (x1,x2..xm)
  110. encoder和decoder都可能调用这个函数,所以seq_len视情况而定
  111. seq_q: [batch_size, seq_len]
  112. seq_k: [batch_size, seq_len]
  113. seq_len could be src_len or it could be tgt_len
  114. seq_len in seq_q and seq_len in seq_k maybe not equal
  115. """
  116. batch_size, len_q = seq_q.size() # 这个seq_q只是用来expand维度的
  117. batch_size, len_k = seq_k.size()
  118. # eq(zero) is PAD token
  119. # 例如:seq_k = [[1,2,3,4,0], [1,2,3,5,0]]
  120. # [batch_size, 1, len_k], True is masked
  121. pad_attn_mask = seq_k.data.eq(0).unsqueeze(1)
  122. # [batch_size, len_q, len_k] 构成一个立方体(batch_size个这样的矩阵)
  123. return pad_attn_mask.expand(batch_size, len_q, len_k)
  124. def get_attn_subsequence_mask(seq):
  125. """建议打印出来看看是什么的输出(一目了然)
  126. seq: [batch_size, tgt_len]
  127. """
  128. attn_shape = [seq.size(0), seq.size(1), seq.size(1)]
  129. # attn_shape: [batch_size, tgt_len, tgt_len]
  130. subsequence_mask = np.triu(np.ones(attn_shape), k=1) # 生成一个上三角矩阵
  131. subsequence_mask = torch.from_numpy(subsequence_mask).byte()
  132. return subsequence_mask # [batch_size, tgt_len, tgt_len]
  133. # ==========================================================================================
  134. class ScaledDotProductAttention(nn.Module):
  135. def __init__(self):
  136. super(ScaledDotProductAttention, self).__init__()
  137. def forward(self, Q, K, V, attn_mask):
  138. """
  139. Q: [batch_size, n_heads, len_q, d_k]
  140. K: [batch_size, n_heads, len_k, d_k]
  141. V: [batch_size, n_heads, len_v(=len_k), d_v]
  142. attn_mask: [batch_size, n_heads, seq_len, seq_len]
  143. 说明:在encoder-decoder的Attention层中len_q(q1,..qt)和len_k(k1,...km)可能不同
  144. """
  145. scores = torch.matmul(Q, K.transpose(-1, -2)) / \
  146. np.sqrt(d_k) # scores : [batch_size, n_heads, len_q, len_k]
  147. # mask矩阵填充scores(用-1e9填充scores中与attn_mask中值为1位置相对应的元素)
  148. # Fills elements of self tensor with value where mask is True.
  149. scores.masked_fill_(attn_mask, -1e9)
  150. attn = nn.Softmax(dim=-1)(scores) # 对最后一个维度(v)做softmax
  151. # scores : [batch_size, n_heads, len_q, len_k] * V: [batch_size, n_heads, len_v(=len_k), d_v]
  152. # context: [batch_size, n_heads, len_q, d_v]
  153. context = torch.matmul(attn, V)
  154. # context:[[z1,z2,...],[...]]向量, attn注意力稀疏矩阵(用于可视化的)
  155. return context, attn
  156. class MultiHeadAttention(nn.Module):
  157. """这个Attention类可以实现:
  158. Encoder的Self-Attention
  159. Decoder的Masked Self-Attention
  160. Encoder-Decoder的Attention
  161. 输入:seq_len x d_model
  162. 输出:seq_len x d_model
  163. """
  164. def __init__(self):
  165. super(MultiHeadAttention, self).__init__()
  166. self.W_Q = nn.Linear(d_model, d_k * n_heads,
  167. bias=False) # q,k必须维度相同,不然无法做点积
  168. self.W_K = nn.Linear(d_model, d_k * n_heads, bias=False)
  169. self.W_V = nn.Linear(d_model, d_v * n_heads, bias=False)
  170. # 这个全连接层可以保证多头attention的输出仍然是seq_len x d_model
  171. self.fc = nn.Linear(n_heads * d_v, d_model, bias=False)
  172. def forward(self, input_Q, input_K, input_V, attn_mask):
  173. """
  174. input_Q: [batch_size, len_q, d_model]
  175. input_K: [batch_size, len_k, d_model]
  176. input_V: [batch_size, len_v(=len_k), d_model]
  177. attn_mask: [batch_size, seq_len, seq_len]
  178. """
  179. residual, batch_size = input_Q, input_Q.size(0)
  180. # 下面的多头的参数矩阵是放在一起做线性变换的,然后再拆成多个头,这是工程实现的技巧
  181. # B: batch_size, S:seq_len, D: dim
  182. # (B, S, D) -proj-> (B, S, D_new) -split-> (B, S, Head, W) -trans-> (B, Head, S, W)
  183. # 线性变换 拆成多头
  184. # Q: [batch_size, n_heads, len_q, d_k]
  185. Q = self.W_Q(input_Q).view(batch_size, -1,
  186. n_heads, d_k).transpose(1, 2)
  187. # K: [batch_size, n_heads, len_k, d_k] # K和V的长度一定相同,维度可以不同
  188. K = self.W_K(input_K).view(batch_size, -1,
  189. n_heads, d_k).transpose(1, 2)
  190. # V: [batch_size, n_heads, len_v(=len_k), d_v]
  191. V = self.W_V(input_V).view(batch_size, -1,
  192. n_heads, d_v).transpose(1, 2)
  193. # 因为是多头,所以mask矩阵要扩充成4维的
  194. # attn_mask: [batch_size, seq_len, seq_len] -> [batch_size, n_heads, seq_len, seq_len]
  195. attn_mask = attn_mask.unsqueeze(1).repeat(1, n_heads, 1, 1)
  196. # context: [batch_size, n_heads, len_q, d_v], attn: [batch_size, n_heads, len_q, len_k]
  197. context, attn = ScaledDotProductAttention()(Q, K, V, attn_mask)
  198. # 下面将不同头的输出向量拼接在一起
  199. # context: [batch_size, n_heads, len_q, d_v] -> [batch_size, len_q, n_heads * d_v]
  200. context = context.transpose(1, 2).reshape(
  201. batch_size, -1, n_heads * d_v)
  202. # 这个全连接层可以保证多头attention的输出仍然是seq_len x d_model
  203. output = self.fc(context) # [batch_size, len_q, d_model]
  204. return nn.LayerNorm(d_model).to(device)(output + residual), attn
  205. # Pytorch中的Linear只会对最后一维操作,所以正好是我们希望的每个位置用同一个全连接网络
  206. class PoswiseFeedForwardNet(nn.Module):
  207. def __init__(self):
  208. super(PoswiseFeedForwardNet, self).__init__()
  209. self.fc = nn.Sequential(
  210. nn.Linear(d_model, d_ff, bias=False),
  211. nn.ReLU(),
  212. nn.Linear(d_ff, d_model, bias=False)
  213. )
  214. def forward(self, inputs):
  215. """
  216. inputs: [batch_size, seq_len, d_model]
  217. """
  218. residual = inputs
  219. output = self.fc(inputs)
  220. # [batch_size, seq_len, d_model]
  221. return nn.LayerNorm(d_model).to(device)(output + residual)
  222. class EncoderLayer(nn.Module):
  223. def __init__(self):
  224. super(EncoderLayer, self).__init__()
  225. self.enc_self_attn = MultiHeadAttention()
  226. self.pos_ffn = PoswiseFeedForwardNet()
  227. def forward(self, enc_inputs, enc_self_attn_mask):
  228. """E
  229. enc_inputs: [batch_size, src_len, d_model]
  230. enc_self_attn_mask: [batch_size, src_len, src_len] mask矩阵(pad mask or sequence mask)
  231. """
  232. # enc_outputs: [batch_size, src_len, d_model], attn: [batch_size, n_heads, src_len, src_len]
  233. # 第一个enc_inputs * W_Q = Q
  234. # 第二个enc_inputs * W_K = K
  235. # 第三个enc_inputs * W_V = V
  236. enc_outputs, attn = self.enc_self_attn(enc_inputs, enc_inputs, enc_inputs,
  237. enc_self_attn_mask) # enc_inputs to same Q,K,V(未线性变换前)
  238. enc_outputs = self.pos_ffn(enc_outputs)
  239. # enc_outputs: [batch_size, src_len, d_model]
  240. return enc_outputs, attn
  241. class DecoderLayer(nn.Module):
  242. def __init__(self):
  243. super(DecoderLayer, self).__init__()
  244. self.dec_self_attn = MultiHeadAttention()
  245. self.dec_enc_attn = MultiHeadAttention()
  246. self.pos_ffn = PoswiseFeedForwardNet()
  247. def forward(self, dec_inputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask):
  248. """
  249. dec_inputs: [batch_size, tgt_len, d_model]
  250. enc_outputs: [batch_size, src_len, d_model]
  251. dec_self_attn_mask: [batch_size, tgt_len, tgt_len]
  252. dec_enc_attn_mask: [batch_size, tgt_len, src_len]
  253. """
  254. # dec_outputs: [batch_size, tgt_len, d_model], dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len]
  255. dec_outputs, dec_self_attn = self.dec_self_attn(dec_inputs, dec_inputs, dec_inputs,
  256. dec_self_attn_mask) # 这里的Q,K,V全是Decoder自己的输入
  257. # dec_outputs: [batch_size, tgt_len, d_model], dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]
  258. dec_outputs, dec_enc_attn = self.dec_enc_attn(dec_outputs, enc_outputs, enc_outputs,
  259. dec_enc_attn_mask) # Attention层的Q(来自decoder) 和 K,V(来自encoder)
  260. # [batch_size, tgt_len, d_model]
  261. dec_outputs = self.pos_ffn(dec_outputs)
  262. # dec_self_attn, dec_enc_attn这两个是为了可视化的
  263. return dec_outputs, dec_self_attn, dec_enc_attn
  264. class Encoder(nn.Module):
  265. def __init__(self):
  266. super(Encoder, self).__init__()
  267. self.src_emb = nn.Embedding(src_vocab_size, d_model) # token Embedding
  268. self.pos_emb = PositionalEncoding(
  269. d_model) # Transformer中位置编码时固定的,不需要学习
  270. self.layers = nn.ModuleList([EncoderLayer() for _ in range(n_layers)])
  271. def forward(self, enc_inputs):
  272. """
  273. enc_inputs: [batch_size, src_len]
  274. """
  275. enc_outputs = self.src_emb(
  276. enc_inputs) # [batch_size, src_len, d_model]
  277. enc_outputs = self.pos_emb(enc_outputs.transpose(0, 1)).transpose(
  278. 0, 1) # [batch_size, src_len, d_model]
  279. # Encoder输入序列的pad mask矩阵
  280. enc_self_attn_mask = get_attn_pad_mask(
  281. enc_inputs, enc_inputs) # [batch_size, src_len, src_len]
  282. enc_self_attns = [] # 在计算中不需要用到,它主要用来保存你接下来返回的attention的值(这个主要是为了你画热力图等,用来看各个词之间的关系
  283. for layer in self.layers: # for循环访问nn.ModuleList对象
  284. # 上一个block的输出enc_outputs作为当前block的输入
  285. # enc_outputs: [batch_size, src_len, d_model], enc_self_attn: [batch_size, n_heads, src_len, src_len]
  286. enc_outputs, enc_self_attn = layer(enc_outputs,
  287. enc_self_attn_mask) # 传入的enc_outputs其实是input,传入mask矩阵是因为你要做self attention
  288. enc_self_attns.append(enc_self_attn) # 这个只是为了可视化
  289. return enc_outputs, enc_self_attns
  290. class Decoder(nn.Module):
  291. def __init__(self):
  292. super(Decoder, self).__init__()
  293. self.tgt_emb = nn.Embedding(
  294. tgt_vocab_size, d_model) # Decoder输入的embed词表
  295. self.pos_emb = PositionalEncoding(d_model)
  296. self.layers = nn.ModuleList([DecoderLayer()
  297. for _ in range(n_layers)]) # Decoder的blocks
  298. def forward(self, dec_inputs, enc_inputs, enc_outputs):
  299. """
  300. dec_inputs: [batch_size, tgt_len]
  301. enc_inputs: [batch_size, src_len]
  302. enc_outputs: [batch_size, src_len, d_model] # 用在Encoder-Decoder Attention层
  303. """
  304. dec_outputs = self.tgt_emb(
  305. dec_inputs) # [batch_size, tgt_len, d_model]
  306. dec_outputs = self.pos_emb(dec_outputs.transpose(0, 1)).transpose(0, 1).to(
  307. device) # [batch_size, tgt_len, d_model]
  308. # Decoder输入序列的pad mask矩阵(这个例子中decoder是没有加pad的,实际应用中都是有pad填充的)
  309. dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs).to(
  310. device) # [batch_size, tgt_len, tgt_len]
  311. # Masked Self_Attention:当前时刻是看不到未来的信息的
  312. dec_self_attn_subsequence_mask = get_attn_subsequence_mask(dec_inputs).to(
  313. device) # [batch_size, tgt_len, tgt_len]
  314. # Decoder中把两种mask矩阵相加(既屏蔽了pad的信息,也屏蔽了未来时刻的信息)
  315. dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequence_mask),
  316. 0).to(device) # [batch_size, tgt_len, tgt_len]; torch.gt比较两个矩阵的元素,大于则返回1,否则返回0
  317. # 这个mask主要用于encoder-decoder attention层
  318. # get_attn_pad_mask主要是enc_inputs的pad mask矩阵(因为enc是处理K,V的,求Attention时是用v1,v2,..vm去加权的,要把pad对应的v_i的相关系数设为0,这样注意力就不会关注pad向量)
  319. # dec_inputs只是提供expand的size的
  320. dec_enc_attn_mask = get_attn_pad_mask(
  321. dec_inputs, enc_inputs) # [batc_size, tgt_len, src_len]
  322. dec_self_attns, dec_enc_attns = [], []
  323. for layer in self.layers:
  324. # dec_outputs: [batch_size, tgt_len, d_model], dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len], dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]
  325. # Decoder的Block是上一个Block的输出dec_outputs(变化)和Encoder网络的输出enc_outputs(固定)
  326. dec_outputs, dec_self_attn, dec_enc_attn = layer(dec_outputs, enc_outputs, dec_self_attn_mask,
  327. dec_enc_attn_mask)
  328. dec_self_attns.append(dec_self_attn)
  329. dec_enc_attns.append(dec_enc_attn)
  330. # dec_outputs: [batch_size, tgt_len, d_model]
  331. return dec_outputs, dec_self_attns, dec_enc_attns
  332. class Transformer(nn.Module):
  333. def __init__(self):
  334. super(Transformer, self).__init__()
  335. self.encoder = Encoder().to(device)
  336. self.decoder = Decoder().to(device)
  337. self.projection = nn.Linear(
  338. d_model, tgt_vocab_size, bias=False).to(device)
  339. def forward(self, enc_inputs, dec_inputs):
  340. """Transformers的输入:两个序列
  341. enc_inputs: [batch_size, src_len]
  342. dec_inputs: [batch_size, tgt_len]
  343. """
  344. # tensor to store decoder outputs
  345. # outputs = torch.zeros(batch_size, tgt_len, tgt_vocab_size).to(self.device)
  346. # enc_outputs: [batch_size, src_len, d_model], enc_self_attns: [n_layers, batch_size, n_heads, src_len, src_len]
  347. # 经过Encoder网络后,得到的输出还是[batch_size, src_len, d_model]
  348. enc_outputs, enc_self_attns = self.encoder(enc_inputs)
  349. # dec_outputs: [batch_size, tgt_len, d_model], dec_self_attns: [n_layers, batch_size, n_heads, tgt_len, tgt_len], dec_enc_attn: [n_layers, batch_size, tgt_len, src_len]
  350. dec_outputs, dec_self_attns, dec_enc_attns = self.decoder(
  351. dec_inputs, enc_inputs, enc_outputs)
  352. # dec_outputs: [batch_size, tgt_len, d_model] -> dec_logits: [batch_size, tgt_len, tgt_vocab_size]
  353. dec_logits = self.projection(dec_outputs)
  354. return dec_logits.view(-1, dec_logits.size(-1)), enc_self_attns, dec_self_attns, dec_enc_attns
  355. model = Transformer().to(device)
  356. # 这里的损失函数里面设置了一个参数 ignore_index=0,因为 "pad" 这个单词的索引为 0,这样设置以后,就不会计算 "pad" 的损失(因为本来 "pad" 也没有意义,不需要计算)
  357. criterion = nn.CrossEntropyLoss(ignore_index=0)
  358. optimizer = optim.SGD(model.parameters(), lr=1e-3,
  359. momentum=0.99) # 用adam的话效果不好
  360. # ====================================================================================================
  361. for epoch in range(epochs):
  362. for enc_inputs, dec_inputs, dec_outputs in loader:
  363. """
  364. enc_inputs: [batch_size, src_len]
  365. dec_inputs: [batch_size, tgt_len]
  366. dec_outputs: [batch_size, tgt_len]
  367. """
  368. enc_inputs, dec_inputs, dec_outputs = enc_inputs.to(
  369. device), dec_inputs.to(device), dec_outputs.to(device)
  370. # outputs: [batch_size * tgt_len, tgt_vocab_size]
  371. outputs, enc_self_attns, dec_self_attns, dec_enc_attns = model(
  372. enc_inputs, dec_inputs)
  373. # dec_outputs.view(-1):[batch_size * tgt_len * tgt_vocab_size]
  374. loss = criterion(outputs, dec_outputs.view(-1))
  375. print('Epoch:', '%04d' % (epoch + 1), 'loss =', '{:.6f}'.format(loss))
  376. optimizer.zero_grad()
  377. loss.backward()
  378. optimizer.step()
  379. def greedy_decoder(model, enc_input, start_symbol):
  380. """贪心编码
  381. For simplicity, a Greedy Decoder is Beam search when K=1. This is necessary for inference as we don't know the
  382. target sequence input. Therefore we try to generate the target input word by word, then feed it into the transformer.
  383. Starting Reference: http://nlp.seas.harvard.edu/2018/04/03/attention.html#greedy-decoding
  384. :param model: Transformer Model
  385. :param enc_input: The encoder input
  386. :param start_symbol: The start symbol. In this example it is 'S' which corresponds to index 4
  387. :return: The target input
  388. """
  389. enc_outputs, enc_self_attns = model.encoder(enc_input)
  390. # 初始化一个空的tensor: tensor([], size=(1, 0), dtype=torch.int64)
  391. dec_input = torch.zeros(1, 0).type_as(enc_input.data)
  392. terminal = False
  393. next_symbol = start_symbol
  394. while not terminal:
  395. # 预测阶段:dec_input序列会一点点变长(每次添加一个新预测出来的单词)
  396. dec_input = torch.cat([dec_input.to(device), torch.tensor([[next_symbol]], dtype=enc_input.dtype).to(device)],
  397. -1)
  398. dec_outputs, _, _ = model.decoder(dec_input, enc_input, enc_outputs)
  399. projected = model.projection(dec_outputs)
  400. prob = projected.squeeze(0).max(dim=-1, keepdim=False)[1]
  401. # 增量更新(我们希望重复单词预测结果是一样的)
  402. # 我们在预测是会选择性忽略重复的预测的词,只摘取最新预测的单词拼接到输入序列中
  403. # 拿出当前预测的单词(数字)。我们用x'_t对应的输出z_t去预测下一个单词的概率,不用z_1,z_2..z_{t-1}
  404. next_word = prob.data[-1]
  405. next_symbol = next_word
  406. if next_symbol == tgt_vocab["E"]:
  407. terminal = True
  408. # print(next_word)
  409. # greedy_dec_predict = torch.cat(
  410. # [dec_input.to(device), torch.tensor([[next_symbol]], dtype=enc_input.dtype).to(device)],
  411. # -1)
  412. greedy_dec_predict = dec_input[:, 1:]
  413. return greedy_dec_predict
  414. # ==========================================================================================
  415. # 预测阶段
  416. # 测试集
  417. sentences = [
  418. # enc_input dec_input dec_output
  419. ['我 有 零 个 女 朋 友 P', '', '']
  420. ]
  421. enc_inputs, dec_inputs, dec_outputs = make_data(sentences)
  422. test_loader = Data.DataLoader(
  423. MyDataSet(enc_inputs, dec_inputs, dec_outputs), 2, True)
  424. enc_inputs, _, _ = next(iter(test_loader))
  425. print()
  426. print("="*30)
  427. print("利用训练好的Transformer模型将中文句子'我 有 零 个 女 朋 友' 翻译成英文句子: ")
  428. for i in range(len(enc_inputs)):
  429. greedy_dec_predict = greedy_decoder(model, enc_inputs[i].view(
  430. 1, -1).to(device), start_symbol=tgt_vocab["S"])
  431. print(enc_inputs[i], '->', greedy_dec_predict.squeeze())
  432. print([src_idx2word[t.item()] for t in enc_inputs[i]], '->',
  433. [idx2word[n.item()] for n in greedy_dec_predict.squeeze()])

结果:

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/359807
推荐阅读
相关标签
  

闽ICP备14008679号