谷歌一个月前发了一篇论文Attention is all you need,文中提出了一种新的架构叫做Transformer,用以来实现机器翻译。它抛弃了传统用CNN或者RNN的定式,取得了很好的效果,激起了工业界和学术界的广泛讨论。本人的另一篇博客也对改论文进行了一定的分析:对Attention is all you need 的理解。而在谷歌的论文发出不久,就有人用tensorflow实现了Transformer模型:A TensorFlow Implementation of the Transformer: Attention Is All You Need。这里我打算对该开源实现的代码进行细致的分析。 
该实现相对原始论文有些许不同,比如为了方便使用了IWSLT 2016德英翻译的数据集,直接用的positional embedding,把learning rate一开始就调的很小等等,不过大同小异,主要模型没有区别。


  • hyperparams.py 该文件包含所有需要用到的参数
  • prepro.py 该文件生成源语言和目标语言的词汇文件。
  • data_load.py 该文件包含所有关于加载数据以及批量化数据的函数。
  • modules.py 该文件具体实现编码器和解码器网络
  • train.py 训练模型的代码,定义了模型,损失函数以及训练和保存模型的过程
  • eval.py 评估模型的效果


  1. class Hyperparams:
  2. '''Hyperparameters'''
  3. # data
  4. source_train = 'corpora/train.tags.de-en.de'
  5. target_train = 'corpora/train.tags.de-en.en'
  6. source_test = 'corpora/IWSLT16.TED.tst2014.de-en.de.xml'
  7. target_test = 'corpora/IWSLT16.TED.tst2014.de-en.en.xml'
  8. # training
  9. batch_size = 32 # alias = N
  10. lr = 0.0001 # learning rate. In paper, learning rate is adjusted to the global step.
  11. logdir = 'logdir' # log directory
  12. # model
  13. maxlen = 10 # Maximum number of words in a sentence. alias = T.
  14. # Feel free to increase this if you are ambitious.
  15. min_cnt = 20 # words whose occurred less than min_cnt are encoded as <UNK>.
  16. hidden_units = 512 # alias = C
  17. num_blocks = 6 # number of encoder/decoder blocks
  18. num_epochs = 20
  19. num_heads = 8
  20. dropout_rate = 0.1

可以看出该部分没有什么特别难以理解的,定义了一些要使用的超参数以便以后使用。首先是源语言以及目标语言的训练数据和测试数据的路径,其次设定了batch_size的大小以及初始学习速率还有日志的目录,batch_size 在后续代码中即所谓的N,参数中常会见到。最后定义了一些模型相关的参数,maxlen为一句话里最大词的长度为10个,在其他代码中就用的是T来表示,你也可以根据自己的喜好将这个参数调大;min_cnt被设置为20,该参数表示所有出现次数少于min_cnt次的都会被当作UNK来处理;hidden_units设置为512,隐藏节点的 个数,在代码中用C来表示。num_blocks和num_heads都是论文中提到的设定,epoch大小设置为20,此外还有dropout就不用多费口舌了。 

接下来看预处理的代码prepro.py ,该代码的作用是生成源语言和目标语言的词汇文件。 

  1. <PAD> 1000000000
  2. <UNK> 1000000000
  3. <S> 1000000000
  4. </S> 1000000000
  5. die 85235
  6. und 77082
  7. der 56248
  8. ist 51457


  1. from __future__ import print_function
  2. from hyperparams import Hyperparams as hp
  3. import tensorflow as tf
  4. import numpy as np
  5. import codecs
  6. import os
  7. import regex
  8. from collections import Counter
  9. def make_vocab(fpath, fname):
  10. '''Constructs vocabulary.
  11. Args:
  12. fpath: A string. Input file path.
  13. fname: A string. Output file name.
  14. Writes vocabulary line by line to `preprocessed/fname`
  15. '''
  16. text = codecs.open(fpath, 'r', 'utf-8').read()
  17. text = regex.sub("[^\s\p{Latin}']", "", text)
  18. words = text.split()
  19. word2cnt = Counter(words)
  20. if not os.path.exists('preprocessed'): os.mkdir('preprocessed')
  21. with codecs.open('preprocessed/{}'.format(fname), 'w', 'utf-8') as fout:
  22. fout.write("{}\t1000000000\n{}\t1000000000\n{}\t1000000000\n{}\t1000000000\n".format("<PAD>", "<UNK>", "<S>", "</S>"))
  23. for word, cnt in word2cnt.most_common(len(word2cnt)):
  24. fout.write(u"{}\t{}\n".format(word, cnt))
  25. if __name__ == '__main__':
  26. make_vocab(hp.source_train, "de.vocab.tsv")
  27. make_vocab(hp.target_train, "en.vocab.tsv")
  28. print("Done")
  • 代码中make_vocab函数就是生成词汇文件的函数。该函数一共有两个参数,fpath表示输入文件的路径,具体而言就是训练数据,而另一个参数fname即要输出的词汇文件名。 


  1. from __future__ import print_function
  2. from hyperparams import Hyperparams as hp
  3. import tensorflow as tf
  4. import numpy as np
  5. import codecs
  6. import regex
  7. def load_de_vocab():
  8. vocab = [line.split()[0] for line in codecs.open('preprocessed/de.vocab.tsv', 'r', 'utf-8').read().splitlines() if int(line.split()[1])>=hp.min_cnt]
  9. word2idx = {word: idx for idx, word in enumerate(vocab)}
  10. idx2word = {idx: word for idx, word in enumerate(vocab)}
  11. return word2idx, idx2word


  1. def load_en_vocab():
  2. vocab = [line.split()[0] for line in codecs.open('preprocessed/en.vocab.tsv', 'r', 'utf-8').read().splitlines() if int(line.split()[1])>=hp.min_cnt]
  3. word2idx = {word: idx for idx, word in enumerate(vocab)}
  4. idx2word = {idx: word for idx, word in enumerate(vocab)}
  5. return word2idx, idx2word



  1. def create_data(source_sents, target_sents):
  2. de2idx, idx2de = load_de_vocab()
  3. en2idx, idx2en = load_en_vocab()
  4. # Index
  5. x_list, y_list, Sources, Targets = [], [], [], []
  6. for source_sent, target_sent in zip(source_sents, target_sents):
  7. x = [de2idx.get(word, 1) for word in (source_sent + u" </S>").split()] # 1: OOV, </S>: End of Text
  8. y = [en2idx.get(word, 1) for word in (target_sent + u" </S>").split()]
  9. if max(len(x), len(y)) <=hp.maxlen:
  10. x_list.append(np.array(x))
  11. y_list.append(np.array(y))
  12. Sources.append(source_sent)
  13. Targets.append(target_sent)
  14. # Pad
  15. X = np.zeros([len(x_list), hp.maxlen], np.int32)
  16. Y = np.zeros([len(y_list), hp.maxlen], np.int32)
  17. for i, (x, y) in enumerate(zip(x_list, y_list)):
  18. X[i] = np.lib.pad(x, [0, hp.maxlen-len(x)], 'constant', constant_values=(0, 0))
  19. Y[i] = np.lib.pad(y, [0, hp.maxlen-len(y)], 'constant', constant_values=(0, 0))
  20. return X, Y, Sources, Targets

同时遍历这两个参数指示的句子列表。一次遍历一个句子对,在该次遍历中,给每个句子末尾后加一个文本结束符</s> 用以表示句子末尾。加上该结束符的句子又被遍历每个词,同时利用双语word/id字典读取word对应的id加入一个新列表中,若该word不再字典中则id用1代替(即UNK的id)。如此则生辰概率两个用一串id表示的双语句子的列表。然后判断这两个句子的长度是否都没超过设定的句子最大长度hp.maxlen,如果没超过,则将这两个双语句子id列表加入模型要用的双语句子id列表x_list,y_list中,同时将满足最大句子长度的原始句子(用word表示的)也加入到句子列表Sources以及Targets中。 


  1. def load_train_data():
  2. de_sents = [regex.sub("[^\s\p{Latin}']", "", line) for line in codecs.open(hp.source_train, 'r', 'utf-8').read().split("\n") if line and line[0] != "<"]
  3. en_sents = [regex.sub("[^\s\p{Latin}']", "", line) for line in codecs.open(hp.target_train, 'r', 'utf-8').read().split("\n") if line and line[0] != "<"]
  4. X, Y, Sources, Targets = create_data(de_sents, en_sents)
  5. return X, Y
  • 顾名思义,该函数的作用是加载训练数据,加载的方式很简单,就是加载刚才create_data返回的等长句子id数组。load_train_data的作用只不过是给create_data提供了de_sents和en_sents两个参数而已。 


  1. def load_test_data():
  2. def _refine(line):
  3. line = regex.sub("<[^>]+>", "", line)
  4. line = regex.sub("[^\s\p{Latin}']", "", line)
  5. return line.strip()
  6. de_sents = [_refine(line) for line in codecs.open(hp.source_test, 'r', 'utf-8').read().split("\n") if line and line[:4] == "<seg"]
  7. en_sents = [_refine(line) for line in codecs.open(hp.target_test, 'r', 'utf-8').read().split("\n") if line and line[:4] == "<seg"]
  8. X, Y, Sources, Targets = create_data(de_sents, en_sents)
  9. return X, Sources, Targets # (1064, 150)
  • load_test_data和load_train_data类似,区别不大。是生成测试数据源语言的id表示的定长句子列表(目标语言由模型预测不用生成),同时还有源语言和目标语言原始句子列表。 
    区别在与正在表达式的操作有些许不同,其中用到了一个函数strip(),默认参数的话就是去掉字符串首以及末尾的空白符。同时数据文件中每行以"<seg" 开头的才是真正的训练数据的句子。


  1. def get_batch_data():
  2. # Load data
  3. X, Y = load_train_data()
  4. # calc total batch count
  5. num_batch = len(X) // hp.batch_size
  6. # Convert to tensor
  7. X = tf.convert_to_tensor(X, tf.int32)
  8. Y = tf.convert_to_tensor(Y, tf.int32)
  9. # Create Queues
  10. input_queues = tf.train.slice_input_producer([X, Y])
  11. # create batch queues
  12. x, y = tf.train.shuffle_batch(input_queues,
  13. num_threads=8,
  14. batch_size=hp.batch_size,
  15. capacity=hp.batch_size*64,
  16. min_after_dequeue=hp.batch_size*32,
  17. allow_smaller_final_batch=False)
  18. return x, y, num_batch # (N, T), (N, T), ()
  • 首先利用之前定义的load_train_data加载训练数据,即源语言和目标语言id表示的句子数组。然后将这两个数组转化为tensorflow支持的tensor这种数据类型,其中dtype为tf.int32。此时,X和Y的shape还是[句子总数,hp.maxlen]。接下来用一个函数tf.train.slice_input_producer对训练数据进行处理,该函数从输入中每次取一个切片返回到一个输入队列里,该队列作为之后tf.train.shuffle_batch的一个参数,用以生成一个batch的数据。关于tf.train.slice_input_producer 以及tf.train.shuffle_batch可参照tensorflow Reading data,里面有详细的介绍和参数选取的方法。 


首先看modules.py,该文件具体实现编码器和解码器网络,论文attention is all you need 具体的attention结构就是由这个模块所定义。 

第一部分代码是实现layer normalizition的功能,因为论文中提到会把数据做一个layer normalizition,后面train的代码里有具体的调用。

  1. from __future__ import print_function
  2. import tensorflow as tf
  3. def normalize(inputs,
  4. epsilon = 1e-8,
  5. scope="ln",
  6. reuse=None):
  7. '''Applies layer normalization.
  8. Args:
  9. inputs: A tensor with 2 or more dimensions, where the first dimension has
  10. `batch_size`.
  11. epsilon: A floating number. A very small number for preventing ZeroDivision Error.
  12. scope: Optional scope for `variable_scope`.
  13. reuse: Boolean, whether to reuse the weights of a previous layer
  14. by the same name.
  15. Returns:
  16. A tensor with the same shape and data dtype as `inputs`.
  17. '''
  18. with tf.variable_scope(scope, reuse=reuse):
  19. inputs_shape = inputs.get_shape()
  20. params_shape = inputs_shape[-1:]
  21. mean, variance = tf.nn.moments(inputs, [-1], keep_dims=True)
  22. beta= tf.Variable(tf.zeros(params_shape))
  23. gamma = tf.Variable(tf.ones(params_shape))
  24. normalized = (inputs - mean) / ( (variance + epsilon) ** (.5) )
  25. outputs = gamma * normalized + beta
  26. return outputs



  1. def embedding(inputs,
  2. vocab_size,
  3. num_units,
  4. zero_pad=True,
  5. scale=True,
  6. scope="embedding",
  7. reuse=None):
  8. '''Embeds a given tensor.
  9. Args:
  10. inputs: A `Tensor` with type `int32` or `int64` containing the ids
  11. to be looked up in `lookup table`.
  12. vocab_size: An int. Vocabulary size.
  13. num_units: An int. Number of embedding hidden units.
  14. zero_pad: A boolean. If True, all the values of the fist row (id 0)
  15. should be constant zeros.
  16. scale: A boolean. If True. the outputs is multiplied by sqrt num_units.
  17. scope: Optional scope for `variable_scope`.
  18. reuse: Boolean, whether to reuse the weights of a previous layer
  19. by the same name.
  20. Returns:
  21. A `Tensor` with one more rank than inputs's. The last dimensionality
  22. should be `num_units`.
  23. For example,
  24. ```
  25. import tensorflow as tf
  26. inputs = tf.to_int32(tf.reshape(tf.range(2*3), (2, 3)))
  27. outputs = embedding(inputs, 6, 2, zero_pad=True)
  28. with tf.Session() as sess:
  29. sess.run(tf.global_variables_initializer())
  30. print sess.run(outputs)
  31. >>
  32. [[[ 0. 0. ]
  33. [ 0.09754146 0.67385566]
  34. [ 0.37864095 -0.35689294]]
  35. [[-1.01329422 -1.09939694]
  36. [ 0.7521342 0.38203377]
  37. [-0.04973143 -0.06210355]]]
  38. ```
  39. ```
  40. import tensorflow as tf
  41. inputs = tf.to_int32(tf.reshape(tf.range(2*3), (2, 3)))
  42. outputs = embedding(inputs, 6, 2, zero_pad=False)
  43. with tf.Session() as sess:
  44. sess.run(tf.global_variables_initializer())
  45. print sess.run(outputs)
  46. >>
  47. [[[-0.19172323 -0.39159766]
  48. [-0.43212751 -0.66207761]
  49. [ 1.03452027 -0.26704335]]
  50. [[-0.11634696 -0.35983452]
  51. [ 0.50208133 0.53509563]
  52. [ 1.22204471 -0.96587461]]]
  53. ```
  54. '''
  55. with tf.variable_scope(scope, reuse=reuse):
  56. lookup_table = tf.get_variable('lookup_table',
  57. dtype=tf.float32,
  58. shape=[vocab_size, num_units],
  59. initializer=tf.contrib.layers.xavier_initializer())
  60. if zero_pad:
  61. lookup_table = tf.concat((tf.zeros(shape=[1, num_units]),
  62. lookup_table[1:, :]), 0)
  63. outputs = tf.nn.embedding_lookup(lookup_table, inputs)
  64. if scale:
  65. outputs = outputs * (num_units ** 0.5)
  66. return outputs

总体而言这个文件中的函数注释写的都还是比较详细的。该函数输入就是要被looked up的整型张量,而该函数返回的张量比输入张量多一个rank,最后一维大小为num_units,即lookup的embedding。同时该函数还提供了一个可选项即zero_pad,默认为True,表示初始化lookup_table时把id=0的那一行(第一行)初始化为全0的结果。scale参数对outputs根据num_units的大小进行了scale,当scale为True时执行scale,默认为True。其他参数函数体都有详细的注释就不多分析了。


作者发现先对queries,keys以及values进行h 次不同的线性映射效果特别好。学习到的线性映射分别映射到dk , dk 以及dv 维。分别对每一个映射之后的得到的queries,keys以及values进行attention函数的并行操作,生成dv维的output值。具体操作细节如以下公式。




这里映射的参数矩阵,WiQ∈ℝdmodel∗dk ,WiK∈ℝdmodel∗dk ,WiV∈ℝdmodel∗dv。 
本文中对并行的attention层(或者成为头)使用了h=8 的设定。其中每层都设置为dk=dv=dmodel/h=64. 由于每个头都减少了维度,所以总的计算代价和在所有维度下单头的attention是差不多的。



  1. def multihead_attention(queries,
  2. keys,
  3. num_units=None,
  4. num_heads=8,
  5. dropout_rate=0,
  6. is_training=True,
  7. causality=False,
  8. scope="multihead_attention",
  9. reuse=None):
  10. '''Applies multihead attention.
  11. Args:
  12. queries: A 3d tensor with shape of [N, T_q, C_q].
  13. keys: A 3d tensor with shape of [N, T_k, C_k].
  14. num_units: A scalar. Attention size.
  15. dropout_rate: A floating point number.
  16. is_training: Boolean. Controller of mechanism for dropout.
  17. causality: Boolean. If true, units that reference the future are masked.
  18. num_heads: An int. Number of heads.
  19. scope: Optional scope for `variable_scope`.
  20. reuse: Boolean, whether to reuse the weights of a previous layer
  21. by the same name.
  22. Returns
  23. A 3d tensor with shape of (N, T_q, C)
  24. '''


函数头之后是函数体,with tf.variable_scope(scope, reuse=reuse): 不多说。


  1. # Set the fall back option for num_units
  2. if num_units is None:
  3. num_units = queries.get_shape().as_list[-1]
  4. # Linear projections
  5. Q = tf.layers.dense(queries, num_units, activation=tf.nn.relu) # (N, T_q, C)
  6. K = tf.layers.dense(keys, num_units, activation=tf.nn.relu) # (N, T_k, C)
  7. V = tf.layers.dense(keys, num_units, activation=tf.nn.relu) # (N, T_k, C)

这里就像之前对多头attention的介绍一样,首先对queries,keys以及values进行全连接的变换,变换后的shape分别为(N, T_q, C),(N, T_k, C)以及(N, T_k, C)。


  1. # Split and concat
  2. Q_ = tf.concat(tf.split(Q, num_heads, axis=2), axis=0) # (h*N, T_q, C/h)
  3. K_ = tf.concat(tf.split(K, num_heads, axis=2), axis=0) # (h*N, T_k, C/h)
  4. V_ = tf.concat(tf.split(V, num_heads, axis=2), axis=0) # (h*N, T_k, C/h)
  • 以上代码将之前变换后的Q,K,V分为num_heads份,并将这些分开的张量重新在第一个维度拼接起来进行后续的运算。形成了新的Q_,K_,V_,其shape为h*N, T_q, C/h),(h*N, T_k,C/h)以及(h*N, T_k,C/h). 
  1. # Multiplication
  2. outputs = tf.matmul(Q_, tf.transpose(K_, [0, 2, 1])) # (h*N, T_q, T_k)
  3. # Scale
  4. outputs = outputs / (K_.get_shape().as_list()[-1] ** 0.5)
  • 将张量K_transopose之后和Q_进行了矩阵乘法的操作,其实就是attention计算时算attention score的一个方法,即向量的点乘。这里是把所有向量一起操作。操作的输出为outputs,然后再对该输出进行论文中所提到的scale操作,outputs的shape为[h*N, T_q, T_k].


  1. # Key Masking
  2. key_masks = tf.sign(tf.abs(tf.reduce_sum(keys, axis=-1))) # (N, T_k)
  3. key_masks = tf.tile(key_masks, [num_heads, 1]) # (h*N, T_k)
  4. key_masks = tf.tile(tf.expand_dims(key_masks, 1), [1, tf.shape(queries)[1], 1]) # (h*N, T_q, T_k)
  5. paddings = tf.ones_like(outputs)*(-2**32+1)
  6. outputs = tf.where(tf.equal(key_masks, 0), paddings, outputs) # (h*N, T_q, T_k)
  • 首先说一下以上key masking的代码事项做什么。它是想让那些key值的unit为0的key对应的attention score极小,这样在加权计算value的时候相当于对结果不造成影响。 
    所以首先用一个reduce_sum(keys, axis=-1))将最后一个维度上的值加起来,keys的shape也从[N, T_k, C_k]变为[N,T_k]。然后再用abs取绝对值,即其值只能为0(一开始的keys值第三个维度值全部为0,reduce_sum加起来之后为0),或正数(一开始的keys值第三个维度值并非全为0,reduce_sum加起来之后为非零数取绝对值为正数)。然后用到了tf.sign(x, name=None),该函数返回符号 y = sign(x) = -1 if x < 0; 0 if x == 0; 1 if x > 0,sign会将原tensor对应的每个值变为-1,0,或者1。则经此操作,得到key_masks,有两个值,0或者1。0代表原先的keys第三维度所有值都为0,反之则为1,我们要mask的就是这些为0的key。 
    接下来用到了一个tf.tile函数,简单介绍以下:tf.tile(input, multiples, name=None),通过简单的堆接一个给定的tensor构建一个新的tensor,新的output tensor 的第i维有 input.dims(i) * multiples[i] 个元素。这里的tf.tile(key_masks, [num_heads, 1])就把原来的shape为(N, T_k)的key_masks转化为shape为(h*N, T_k)的key_masks。(扩充第一个维度的作用是要与之前的split操作及concat操作保持一直,也就是对应多头的attention)。 
    然后定义一个和outputs同shape的paddings,该tensor每个值都设定的极小。用where函数比较,当对应位置的key_masks值为0也就是需要mask时,outputs的该值(attention score)设置为极小的值(利用paddings实现),否则保留原来的outputs值。 
    经过以上key mask操作之后outputs的shape仍为 (h*N, T_q, T_k),只是对应mask了的key的score变为很小的值。


  1. # Causality = Future blinding
  2. if causality:
  3. diag_vals = tf.ones_like(outputs[0, :, :]) # (T_q, T_k)
  4. tril = tf.contrib.linalg.LinearOperatorTriL(diag_vals).to_dense() # (T_q, T_k)
  5. masks = tf.tile(tf.expand_dims(tril, 0), [tf.shape(outputs)[0], 1, 1]) # (h*N, T_q, T_k)
  6. paddings = tf.ones_like(masks)*(-2**32+1)
  7. outputs = tf.where(tf.equal(masks, 0), paddings, outputs) # (h*N, T_q, T_k)

之前介绍参数的时候说了,causality参数告知我们是否屏蔽未来序列的信息(解码器self attention的时候不能看到自己之后的那些信息),这里即causality为True时的屏蔽操作。 
然后将该矩阵转为三角阵tril。三角阵中,对于每一个T_q,凡是那些大于它角标的T_k值全都为0,这样作为mask就可以让query只取它之前的key(self attention中query即key)。由于该规律适用于所有query,接下来仍用tile扩展堆叠其第一个维度,构成masks,shape为(h*N, T_q,T_k).

之后两行代码进行paddings,和之前key mask的过程一样就不多说了。 

之后一行代码outputs = tf.nn.softmax(outputs) # (h*N, T_q, T_k) 将attention score了利用softmax转化为加起来为1的权值,很简单。

接下来是Query Masking:

  1. query_masks = tf.sign(tf.abs(tf.reduce_sum(queries, axis=-1))) # (N, T_q)
  2. query_masks = tf.tile(query_masks, [num_heads, 1]) # (h*N, T_q)
  3. query_masks = tf.tile(tf.expand_dims(query_masks, -1), [1, 1, tf.shape(keys)[1]]) # (h*N, T_q, T_k)
  4. outputs *= query_masks # broadcasting. (N, T_q, C)

所谓要被mask的内容,就是本身不携带信息或者暂时禁止利用其信息的内容。这里query mask也是要将那些初始值为0的queryies(比如一开始句子被PAD填充的那些位置作为query) mask住。代码前三行和key mask的方式大同小异,只是扩展维度等是在最后一个维度展开的。操作之后形成的query_masks的shape为[h*N, T_q, T_k]。 
这里源代码中的注释应该写错了,outputs的shape不应该是(N, T_q, C)而应该和query_masks 的shape一样,为(h*N, T_q, T_k)。


  1. # Dropouts
  2. outputs = tf.layers.dropout(outputs, rate=dropout_rate, training=tf.convert_to_tensor(is_training))
  3. # Weighted sum
  4. outputs = tf.matmul(outputs, V_) # ( h*N, T_q, C/h)
  5. # Restore shape
  6. outputs = tf.concat(tf.split(outputs, num_heads, axis=0), axis=2 ) # (N, T_q, C)
  7. # Residual connection
  8. outputs += queries
  9. # Normalize
  10. outputs = normalize(outputs) # (N, T_q, C)
  • 首先对各种mask之后计算的权值outputs进行dropout,然后用该outputs和V_加权和计算出多个头attention的结果,这里直接用了matmul矩阵乘法计算。outputs的shape为(h*N, T_q, T_k),V_ 的shape为(h*N, T_k, C/h),则相乘之后得到的加权和的outputsshape为( h*N, T_q, C/h)。 
    由于这是多头attention的结果在第一个维度堆叠着,所以现在把他们split开重新concat到最后一个维度上就形成了最终的outputs,其shape为(N, T_q, C)。 
return outputs




  1. def feedforward(inputs,
  2. num_units=[2048, 512],
  3. scope="multihead_attention",
  4. reuse=None):
  5. '''Point-wise feed forward net.
  6. Args:
  7. inputs: A 3d tensor with shape of [N, T, C].
  8. num_units: A list of two integers.
  9. scope: Optional scope for `variable_scope`.
  10. reuse: Boolean, whether to reuse the weights of a previous layer
  11. by the same name.
  12. Returns:
  13. A 3d tensor with the same shape and dtype as inputs
  14. '''
  15. with tf.variable_scope(scope, reuse=reuse):
  16. # Inner layer
  17. params = {"inputs": inputs, "filters": num_units[0], "kernel_size": 1,
  18. "activation": tf.nn.relu, "use_bias": True}
  19. outputs = tf.layers.conv1d(**params)
  20. # Readout layer
  21. params = {"inputs": outputs, "filters": num_units[1], "kernel_size": 1,
  22. "activation": None, "use_bias": True}
  23. outputs = tf.layers.conv1d(**params)
  24. # Residual connection
  25. outputs += inputs
  26. # Normalize
  27. outputs = normalize(outputs)
  28. return outputs



  1. def label_smoothing(inputs, epsilon=0.1):
  2. '''Applies label smoothing. See https://arxiv.org/abs/1512.00567.
  3. Args:
  4. inputs: A 3d tensor with shape of [N, T, V], where V is the number of vocabulary.
  5. epsilon: Smoothing rate.
  6. For example,
  7. ```
  8. import tensorflow as tf
  9. inputs = tf.convert_to_tensor([[[0, 0, 1],
  10. [0, 1, 0],
  11. [1, 0, 0]],
  12. [[1, 0, 0],
  13. [1, 0, 0],
  14. [0, 1, 0]]], tf.float32)
  15. outputs = label_smoothing(inputs)
  16. with tf.Session() as sess:
  17. print(sess.run([outputs]))
  18. >>
  19. [array([[[ 0.03333334, 0.03333334, 0.93333334],
  20. [ 0.03333334, 0.93333334, 0.03333334],
  21. [ 0.93333334, 0.03333334, 0.03333334]],
  22. [[ 0.93333334, 0.03333334, 0.03333334],
  23. [ 0.93333334, 0.03333334, 0.03333334],
  24. [ 0.03333334, 0.93333334, 0.03333334]]], dtype=float32)]
  25. ```
  26. '''
  27. K = inputs.get_shape().as_list()[-1] # number of channels
  28. return ((1-epsilon) * inputs) + (epsilon / K)




  1. from __future__ import print_function
  2. import tensorflow as tf
  3. from hyperparams import Hyperparams as hp
  4. from data_load import get_batch_data, load_de_vocab, load_en_vocab
  5. from modules import *
  6. import os, codecs
  7. from tqdm import tqdm


  1. class Graph():
  2. def __init__(self, is_training=True):
  3. self.graph = tf.Graph()
  4. with self.graph.as_default():
  5. if is_training:
  6. self.x, self.y, self.num_batch = get_batch_data() # (N, T)
  7. else: # inference
  8. self.x = tf.placeholder(tf.int32, shape=(None, hp.maxlen))
  9. self.y = tf.placeholder(tf.int32, shape=(None, hp.maxlen))
  10. # define decoder inputs
  11. self.decoder_inputs = tf.concat((tf.ones_like(self.y[:, :1])*2, self.y[:, :-1]), -1) # 2:<S>
  12. # Load vocabulary
  13. de2idx, idx2de = load_de_vocab()
  14. en2idx, idx2en = load_en_vocab()

数据self.x 和self.y的shape都为[N,T]. 
然后用self.y来初始化解码器的输入。decoder_inputs和self.y相比,去掉了最后一个句子结束符,而在每句话最前面加了一个初始化为2的id,即<S> ,代表开始。shape和self.y一样为[N,T]。 


  1. # Encoder
  2. with tf.variable_scope("encoder"):
  3. ## Embedding
  4. self.enc = embedding(self.x,
  5. vocab_size=len(de2idx),
  6. num_units=hp.hidden_units,
  7. scale=True,
  8. scope="enc_embed")
  9. ## Positional Encoding
  10. self.enc += embedding(tf.tile(tf.expand_dims(tf.range(tf.shape(self.x)[1]), 0), [tf.shape(self.x)[0], 1]),
  11. vocab_size=hp.maxlen,
  12. num_units=hp.hidden_units,
  13. zero_pad=False,
  14. scale=False,
  15. scope="enc_pe")
  16. ## Dropout
  17. self.enc = tf.layers.dropout(self.enc,
  18. rate=hp.dropout_rate,
  19. training=tf.convert_to_tensor(is_training))
  20. ## Blocks
  21. for i in range(hp.num_blocks):
  22. with tf.variable_scope("num_blocks_{}".format(i)):
  23. ### Multihead Attention
  24. self.enc = multihead_attention(queries=self.enc,
  25. keys=self.enc,
  26. num_units=hp.hidden_units,
  27. num_heads=hp.num_heads,
  28. dropout_rate=hp.dropout_rate,
  29. is_training=is_training,
  30. causality=False)
  31. ### Feed Forward
  32. self.enc = feedforward(self.enc, num_units=[4*hp.hidden_units, hp.hidden_units])

这段代码看起来长其实没有什么,主要是定义了 encoder的结构,其定义过程中用的方法大都是在之前 moduel.py 中介绍过的。 
首先利用定义好的 embedding 函数对 self.x 这一输入进行 embedding 操作。embedding之后的 self.enc 的 shape 为[N,T,hp.hidden_units]。这一步只是对词的embedding。 同时为了保留句子的前后时序信息,需要有一个对位置的embedding,这部分用了简单的 positional embedding,和论文中的描述有一些不同,不过论文作者说两者都可以。 
positional embedding 也是用之前的embedding 函数,只不过 embedding 的输入的第二各维度的值不是词的 id,而是变成了该词的位置 id,一共只有 maxlen 种这样的 id,位置的 id 利用了tf.range 实现,最后扩展到了 batch 中的所有句子,因为每个句子中词的位置 id都是一样的。将 word embedding 和 positional embedding 加起来,构成了最终的编码器embedding 输入self.enc,shape仍为[N,T,hp.hidden_units]。 
最后就是将输入送到block单元中进行操作。按照论文中描述的,默认为6个这样的block结构。所以代码循环6次。其中每个block都调用了依次multihead_attention以及feedforward函数.在编码器中,multihead_attention的queries和keys都是self.enc,所以这一部分是self attention。attention之后的结果送到feedforward中进行转换,形成该blocks的输出赋给self.enc。


  1. # Decoder
  2. with tf.variable_scope("decoder"):
  3. ## Embedding
  4. self.dec = embedding(self.decoder_inputs,
  5. vocab_size=len(en2idx),
  6. num_units=hp.hidden_units,
  7. scale=True,
  8. scope="dec_embed")
  9. ## Positional Encoding
  10. self.dec += embedding(tf.tile(tf.expand_dims(tf.range(tf.shape(self.decoder_inputs)[1]), 0), [tf.shape(self.decoder_inputs)[0], 1]),
  11. vocab_size=hp.maxlen,
  12. num_units=hp.hidden_units,
  13. zero_pad=False,
  14. scale=False,
  15. scope="dec_pe")
  16. ## Dropout
  17. self.dec = tf.layers.dropout(self.dec,
  18. rate=hp.dropout_rate,
  19. training=tf.convert_to_tensor(is_training))
  20. ## Blocks
  21. for i in range(hp.num_blocks):
  22. with tf.variable_scope("num_blocks_{}".format(i)):
  23. ## Multihead Attention ( self-attention)
  24. self.dec = multihead_attention(queries=self.dec,
  25. keys=self.dec,
  26. num_units=hp.hidden_units,
  27. num_heads=hp.num_heads,
  28. dropout_rate=hp.dropout_rate,
  29. is_training=is_training,
  30. causality=True,
  31. scope="self_attention")
  32. ## Multihead Attention ( vanilla attention)
  33. self.dec = multihead_attention(queries=self.dec,
  34. keys=self.enc,
  35. num_units=hp.hidden_units,
  36. num_heads=hp.num_heads,
  37. dropout_rate=hp.dropout_rate,
  38. is_training=is_training,
  39. causality=False,
  40. scope="vanilla_attention")
  41. ## Feed Forward
  42. self.dec = feedforward(self.dec, num_units=[4*hp.hidden_units, hp.hidden_units])
  • 该部分是解码模块。类似于编码器,编码器也是word embedding和positional embedding加上dropout。得到的结果为self.dec,shape为[N,T,hp.hidden_units]。这部分和编码器一样就不多说。 
  • 接下来也是blocks的模块。不同于编码器只有一个self attention结构,这里有两个attention结果哦偶。第一个是一个self attention,与编码器中self attention不同的是这里的attention不能利用之后queries的信息,所以要设定multihead_attention的causality参数为True,以屏蔽未来的信息。 
    解码器的self attention之后跟了一个和编码器输出作为keys的attention,从而将编码器和解码器联系起来。该attention中的causality设置为False,因为解码器中的信息都可以被用到。 


  1. # Final linear projection
  2. self.logits = tf.layers.dense(self.dec, len(en2idx))
  3. self.preds = tf.to_int32(tf.arg_max(self.logits, dimension=-1))
  4. self.istarget = tf.to_float(tf.not_equal(self.y, 0))
  5. self.acc = tf.reduce_sum(tf.to_float(tf.equal(self.preds, self.y))*self.istarget)/ (tf.reduce_sum(self.istarget))
  6. tf.summary.scalar('acc', self.acc)

然后定义一个描述精确度的张量self.acc。在所有是target的位置中,当self.preds和self.y中对应位置值相等时转为float 1.0,否则为0。把这些相等的数加起来看一共占所有target的比例即精确度。然后将self.acc加入summary可以监督训练的过程。 

  1. if is_training:
  2. # Loss
  3. self.y_smoothed = label_smoothing(tf.one_hot(self.y, depth=len(en2idx)))
  4. self.loss = tf.nn.softmax_cross_entropy_with_logits(logits=self.logits, labels=self.y_smoothed)
  5. self.mean_loss = tf.reduce_sum(self.loss*self.istarget) / (tf.reduce_sum(self.istarget))
  6. # Training Scheme
  7. self.global_step = tf.Variable(0, name='global_step', trainable=False)
  8. self.optimizer = tf.train.AdamOptimizer(learning_rate=hp.lr, beta1=0.9, beta2=0.98, epsilon=1e-8)
  9. self.train_op = self.optimizer.minimize(self.mean_loss, global_step=self.global_step)
  10. # Summary
  11. tf.summary.scalar('mean_loss', self.mean_loss)
  12. self.merged = tf.summary.merge_all()



  1. if __name__ == '__main__':
  2. # Load vocabulary
  3. de2idx, idx2de = load_de_vocab()
  4. en2idx, idx2en = load_en_vocab()
  5. # Construct graph
  6. g = Graph("train"); print("Graph loaded")
  7. # Start session
  8. sv = tf.train.Supervisor(graph=g.graph,
  9. logdir=hp.logdir,
  10. save_model_secs=0)
  11. with sv.managed_session() as sess:
  12. for epoch in range(1, hp.num_epochs+1):
  13. if sv.should_stop(): break
  14. for step in tqdm(range(g.num_batch), total=g.num_batch, ncols=70, leave=False, unit='b'):
  15. sess.run(g.train_op)
  16. gs = sess.run(g.global_step)
  17. sv.saver.save(sess, hp.logdir + '/model_epoch_%02d_gs_%d' % (epoch, gs))
  18. print("Done")

首先加载双语字典。然后构建刚才定义用的图对象。定义一个supervisor sv用以监督长时间的训练。所以训练以及保存都用sv自带的session。训练epoch次,每个epoch内执行num_batch次train_op操作,并保存训练的结果。该部分主要用了tqdm来显示进度条。关于tqdm模块的用法可以参考: python的Tqdm模块,用起来也是比较简便的。



  1. from __future__ import print_function
  2. import codecs
  3. import os
  4. import tensorflow as tf
  5. import numpy as np
  6. from hyperparams import Hyperparams as hp
  7. from data_load import load_test_data, load_de_vocab, load_en_vocab
  8. from train import Graph
  9. from nltk.translate.bleu_score import corpus_bleu

这里载入了之前几个必须的包以及之前定义的模块。最后一个模块是nltk里面方便计算翻译效果bleu score的模块。具体用到时再细说。 

  1. def eval():
  2. # Load graph
  3. g = Graph(is_training=False)
  4. print("Graph loaded")
  5. # Load data
  6. X, Sources, Targets = load_test_data()
  7. de2idx, idx2de = load_de_vocab()
  8. en2idx, idx2en = load_en_vocab()



  1. # Start session
  2. with g.graph.as_default():
  3. sv = tf.train.Supervisor()
  4. with sv.managed_session(config=tf.ConfigProto(allow_soft_placement=True)) as sess:
  5. ## Restore parameters
  6. sv.saver.restore(sess, tf.train.latest_checkpoint(hp.logdir))
  7. print("Restored!")
  8. ## Get model name
  9. mname = open(hp.logdir + '/checkpoint', 'r').read().split('"')[1] # model name


  1. ## Inference
  2. if not os.path.exists('results'): os.mkdir('results')
  3. with codecs.open("results/" + mname, "w", "utf-8") as fout:
  4. list_of_refs, hypotheses = [], []
  5. for i in range(len(X) // hp.batch_size):
  6. ### Get mini-batches
  7. x = X[i*hp.batch_size: (i+1)*hp.batch_size]
  8. sources = Sources[i*hp.batch_size: (i+1)*hp.batch_size]
  9. targets = Targets[i*hp.batch_size: (i+1)*hp.batch_size]
  10. ### Autoregressive inference
  11. preds = np.zeros((hp.batch_size, hp.maxlen), np.int32)
  12. for j in range(hp.maxlen):
  13. _preds = sess.run(g.preds, {g.x: x, g.y: preds})
  14. preds[:, j] = _preds[:, j]

数据一共又多少个batch就循环多少次。针对每一个batch的循环,取一个mini-batch的数据x。同时将这个batch的双语原始句子也用sources和targets保存起来。然后尽心广泛以。首先初始化翻译结果为int32类型的一个张量,初始值为0,shape为[hp.batch_size, hp.maxlen]。然后针对这个batch的句子从第一个词开始,每个词每个词地预测。这样,后一个词预测的时候就可以利用前面的信息来解码。所以一共循环hp.maxlen次,每次循环用之前的翻译作为解码器的输入翻译的一个词。注意:并不是一次直接翻译完一个句子。



  1. ### Write to file
  2. for source, target, pred in zip(sources, targets, preds): # sentence-wise
  3. got = " ".join(idx2en[idx] for idx in pred).split("</S>")[0].strip()
  4. fout.write("- source: " + source +"\n")
  5. fout.write("- expected: " + target + "\n")
  6. fout.write("- got: " + got + "\n\n")
  7. fout.flush()
  8. # bleu score
  9. ref = target.split()
  10. hypothesis = got.split()
  11. if len(ref) > 3 and len(hypothesis) > 3:
  12. list_of_refs.append([ref])
  13. hypotheses.append(hypothesis)

对于sources, targets, preds中的每个句子同时进行以下操作: 

最后就是计算bleu score并写入到文件:

  1. ## Calculate bleu score
  2. score = corpus_bleu(list_of_refs, hypotheses)
  3. fout.write("Bleu Score = " + str(100*score))

将二者长度都大于3的句子加入到总的列表中作为计算bleu的参数。由此就得到了bleu score,可以用来评估模型。将其写入文件末尾。


  1. if __name__ == '__main__':
  2. eval()
  3. print("Done")


