[KEY: > input, = target, < output] > il est en train de peindre un tableau . = he is painting a picture . < he is painting a picture . > pourquoi ne pas essayer ce vin delicieux ? = why not try that delicious wine ? < why not try that delicious wine ? > elle n est pas poete mais romanciere . = she is not a poet but a novelist . < she not not a poet but a novelist . > vous etes trop maigre . = you re too skinny . < you re all alone .
这次,我们仍然要自己搭建一个RNN,与第一篇和第二篇不同的是,这次是一个单词级别的RNN,是一个从序列到序列的模型,又叫做Seq2Seq(Sequence to Sequence)模型,常用到的结构是编码器-解码器结构(Encoder-Decoder)。在这个模型中,由两个循环神经网络同时工作,把一个序列转换成另一个序列。一个编码器神经网络会把输入的序列编码成一个上下文向量,然后把这个上下文向量输入解码器网络,解码器网络把它解码成一个新的序列。其结构如下图所示:
为了改进模型,我们还用到了一个注意力机制(Attention Mechanism),它使得解码器在每一步解码的时候,关注上下文向量中不同的范围。
第一篇和第二篇都是字母级别的RNN,即对于输入X = {x1,x2,…,xn},X是一个单词,xi是组成单词的字母,比如 X 是"apple",那么:
一句话可以看成是由词组成的序列。假设输入序列为X = {x1,x2,…,xn},xi是词典Vx中的单词,输出序列为 Y = {y1,y2,…,ym},yi是词典Vy中的单词。
以机器翻译任务为例,假设输入一句法文 “vous etes trop maigre .” 那么输入序列就是:
输出一句英文 “ you re all alone .” 那么输出序列就是:
回到我们的翻译任务,考虑我们自己做中英翻译,有时候,输入序列和输出序列是等长的,比如:“I have a pen”,可以翻译成“我有支笔”;有时候,输入序列和输出序列是不等长的,比如:"I have an apple ",翻译成“我有只苹果”,英文单词的数量是4,但是中文字的数量是5。
如何才能让输入序列和输出序列不等长?甚至输出序列比输入序列还长?有人想到了用两个RNN。一个RNN作为编码器,输入序列输入到RNN,然后它输出一个上下文向量(Context Vector) c ,这个过程称为编码;另一个RNN作为解码器,把这个上下文向量 c 输入到RNN,它输出另一个输出序列,这个过程称为解码。如下图所示:
c 的左侧是编码器, c 的右侧是解码器。
上图中的 c 只作为了解码器在第一步的输入,又有下面一种变体,即解码器的每一步都用到 c
事实上,很难真正把输入序列的所有信息都压缩到一个向量 c 中,所以有人想到了用注意力机制,产生一个“注意力范围”。讲人话,就是解码器在每一步解码的时候,给编码器的隐藏层赋上不同的权重,用到不同的上下文向量 ct。
假设 hi 是编码器第 i 步的隐藏层状态;h’t是解码器第 t 步的隐藏层状态,上下文向量 ct 的计算公式为:
from __future__ import unicode_literals, print_function, division
from io import open
import unicodedata
import string
import re
import random
import torch
import torch.nn as nn
from torch import optim
import torch.nn.functional as F
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
在Seq2Seq模型中,除了原有的词典外,还需要引入两个特殊符号,一个用于标记文本序列开始<SOS>(Start of String),一个用于标记文本序列结束<EOS>(End of String),它们的索引分别是0和1.
此外,对于英文和法文,都定义一个语言类 Lang
和字母级别的RNN教程一样,每个单词都用一个 one-hot 向量来表示,即一堆0和一个1的向量,1所在的位置是这个单词的索引。与英文中只有26个字母相比,单词的数量要多得多,因此,对于英文和法文,我们都只选择一些数据来建立我们的词典。在英文数据上建立的词典 word2index
索引为0的是 “<SOS>” 符号,索引为1的是 “<EOS>” 符号。
假设这里索引为2的是 “the” 这个单词,索引为3的是 “a” 这个单词,索引为4的是 “is” 这个单词,索引为5的是 “and” 这个单词,索引为6的是 “or” 这个单词……
那么 “and” 的one-hot向量即为:<0,0,0,0,0,1,0,…> (在5这个位置是1,其它位置都是0)
语言类 Lang
:词典中单词数量SOS_token = 0 EOS_token = 1 class Lang: def __init__(self,name): self.name = name self.word2index = {} #把单词映射为索引的词典 self.word2count = {} #统计出现过的单词总共出现的次数 self.index2word = {0:"SOS", 1:"EOS"} #把索引映射为单词 self.n_words = 2 #词典中单词数量 def addSentence(self, sentence): # 把句子按空格分割,把句中每个单词都加入词典 for word in sentence.split(' '): self.addWord(word) def addWord(self, word): # 如果单词之前没有出现过,就加入词典 if word not in self.word2index: self.word2index[word] = self.n_words self.word2count[word] = 1 self.index2word[self.n_words] = word self.n_words += 1 # 如果单词之前已经出现过,就次数加1 else: self.word2count[word] += 1
# 把unicode编码转化成普通的ASCII编码
def unicodeToAscii(s):
return ''.join(
c for c in unicodedata.normalize('NFD', s)
if unicodedata.category(c) != 'Mn'
# 小写、移除一些不是字母的字符
def normalizeString(s):
s = unicodeToAscii(s.lower().strip())
s = re.sub(r"([.!?])", r" \1", s)
s = re.sub(r"[^a-zA-Z.!?]+", r" ", s)
return s
读入文件 eng-fra.txt
。原来的文件是英译法,如果想法译英,可以把输入序列和输出序列交换一下,因此加入了一个 reverse
def readLangs(lang1, lang2, reverse=False): print("Reading lines...") # 读入文件,并按回车分行,每一行都存储在lines中 lines = open('data/%s-%s.txt' % (lang1, lang2),encoding='utf-8').read().strip().split('\n') # 每一行,用tab分割,前面的是英文,后面的是法文 pairs = [[normalizeString(s) for s in line.split('\t')] for line in lines] # 如果reverse=True,就是法译英 if reverse: pairs = [list(reversed(p)) for p in pairs] input_lang = Lang(lang2) output_lang = Lang(lang1) # 如果reverse=False,就是英译法 else: input_lang = Lang(lang1) output_lang = Lang(lang2) return input_lang,output_lang,pairs
由于原来的文件中,样本句子有很多,为了加快训练,我们在本教程中,只用一些短小、简单的句子来创建训练集。我们去除了文件中长度大于 10 个单词(包含结尾标点符号)的句子,此外,我们只用以 “I am” 或 “He is” 等形式开头的句子。因为之前把 "i’m " 等缩写中的撇号(’)过滤掉了,所以这里是 "i m "。
MAX_LENGTH = 10 # 句子最大长度是10 # 过滤出一些长度不超过10,以下列前缀开头的句子作为训练集 eng_prefixes = ( "i am ", "i m ", "he is", "he s ", "she is", "she s ", "you are", "you re ", "we are", "we re ", "they are", "they re" ) def filterPair(p): return len(p[0].split(' ')) < MAX_LENGTH and\ len(p[1].split(' ')) < MAX_LENGTH and\ p[1].startswith(eng_prefixes) def filterPairs(pairs): return [pair for pair in pairs if filterPair(pair)]
def prepareData(lang1, lang2, reverse=False): input_lang, output_lang, pairs = readLangs(lang1,lang2,reverse) print("Read %s sentence pairs" % len(pairs)) pairs = filterPairs(pairs) print("Trimmed to %s sentence pairs" % len(pairs)) print("Counting words...") for pair in pairs: input_lang.addSentence(pair[0]) # input_lang中为句子pair[0]创建词典 output_lang.addSentence(pair[1]) # output_lang中为句子pair[1]创建词典 print("Counted wrods:") print(input_lang.name,input_lang.n_words) print(output_lang.name,output_lang.n_words) return input_lang,output_lang,pairs input_lang,output_lang,pairs=prepareData('eng','fra',True) #法译英 print(random.choice(pairs))
Reading lines...
Read 135842 sentence pairs
Trimmed to 10635 sentence pairs
Counting words...
Counted wrods:
fra 4370
eng 2824
['ils ont termine .', 'they re done .']
对于每一个英-法句子对,我们都需要一个输入的tensor(它是输入句子中的单词的索引)和一个目标的tensor(它是目标句子中的单词的索引)。在创建这些向量的时候,我们还需要给每个句子序列加入一个 “<EOS>” 符号:
# 创建句子的tensor def indexesFromSentence(lang, sentence): return [lang.word2index[word] for word in sentence.split(' ')] # 在句子的tensor中,加入EOS符号 def tensorFromSentence(lang, sentence): indexes = indexesFromSentence(lang,sentence) indexes.append(EOS_token) return torch.tensor(indexes, dtype = torch.long, device=device).view(-1,1) # 创建句子对的tensor def tensorsFromPair(pair): input_tensor = tensorFromSentence(input_lang,pair[0]) target_tensor = tensorFromSentence(output_lang,pair[1]) return (input_tensor, target_tensor) sample_pairs = random.choice(pairs) print(sample_pairs) input_tensor, target_tensor = tensorsFromPair(sample_pairs) print('input:',input_tensor) print('target:',target_tensor)
['je suis consciente des risques .', 'i m aware of the risks .'] input: tensor([[ 6], [ 11], [1642], [ 194], [2705], [ 5], [ 1]], device='cuda:0') target: tensor([[ 2], [ 3], [ 894], [ 519], [ 294], [1601], [ 4], [ 1]], device='cuda:0')
如前面所说,Seq2Seq模型中有两个RNN,一个是编码器,把输入序列编码成为一个向量c ,另一个是解码器,把向量c cc解码成为一个输出序列。如下图所示:
class EncoderRNN(nn.Module):
def __init__(self,input_size,hidden_size):
super(EncoderRNN, self).__init__()
self.hidden_size = hidden_size
self.embedding = nn.Embedding(input_size, hidden_size)
self.gru = nn.GRU(hidden_size, hidden_size)
def forward(self, input, hidden):
embedded = self.embedding(input).view(1,1,-1)
output, hidden = self.gru(embedded,hidden)
return output,hidden
def initHidden(self):
return torch.zeros(1,1,self.hidden_size, device=device)
在每一个解码的时候,会向解码器中输入一个符号和一个隐藏层状态,最开始的输入符号是 “<SOS>” 符号 ,标志着字符串的开始(Start-of-String),解码器的第一个隐藏层状态是上下文向量,即编码器最后一层的隐藏层状态。
class DecoderRNN(nn.Module): def __init__(self, hidden_size, output_size): super(DecoderRNN, self).__init__() self.hidden_size = hidden_size self.embedding = nn.Embedding(output_size, hidden_size) self.gru = nn.GRU(hidden_size, hidden_size) self.out = nn.Linear(hidden_size, output_size) self.softmax = nn.LogSoftmax(dim=1) def forward(self, input, hidden): embedded = self.embedding(input).view(1,1,-1) embedded = F.relu(embedded) output, hidden = self.gru(embedded, hidden) output = self.softmax(self.out(output[0])) return output, hidden def initHidden(self): return torch.zeros(1,1,self.hidden_size, device=device)
注意力机制允许解码器在输出每一步的单词时,关注到编码器的输出的不同部分。首先,我们会计算一个注意力权重,然后,它们与编码器每一步输出的向量相乘,加权求和,得到一个向量。这个向量(代码中叫做 attn_applied
由另一个前向传播的全连接层 attn
class AttnDecoderRNN(nn.Module): def __init__(self, hidden_size, output_size, dropout_p=0.1, max_length=MAX_LENGTH): super(AttnDecoderRNN, self).__init__() self.hidden_size = hidden_size self.output_size = output_size # 目标语言的单词数量 self.dropout_p = dropout_p self.max_length = max_length self.embedding = nn.Embedding(self.output_size, self.hidden_size) self.attn = nn.Linear(self.hidden_size * 2,self.max_length) self.attn_combine = nn.Linear(self.hidden_size * 2,self.hidden_size) self.dropout = nn.Dropout(self.dropout_p) self.gru = nn.GRU(self.hidden_size, self.hidden_size) self.out = nn.Linear(self.hidden_size, self.output_size) def forward(self, input, hidden, encoder_outputs): # input是编码器的上一步输出 或者 真实的前一个单词 embedded = self.embedding(input).view(1,1,-1) embedded = self.dropout(embedded) # 计算注意力权重 attn_weights = F.softmax( self.attn(torch.cat((embedded[0],hidden[0]),1)),dim=1) # torch.bmm(a,b):计算两个tensor的Hadamard乘积, # tensor a 的大小为(b,h1,w), # tensor b 的大小为(b,w,h2) attn_applied = torch.bmm(attn_weights.unsqueeze(0), # 1, 1, max_length encoder_outputs.unsqueeze(0)) # 1, max_length, hidden_size # 输出的attn_applied 大小为 (1, 1, hidden_size) # embedded: (1, 1, hidden_size) output = torch.cat((embedded[0], attn_applied[0]),1) output = self.attn_combine(output).unsqueeze(0) output = F.relu(output) output, hidden = self.gru(output,hidden) output = F.log_softmax(self.out(output[0]),dim=1) return output, hidden, attn_weights def initHidden(self): return torch.zeros(1,1,self.hidden_size,device=device)
为了训练,我们先把输入序列通过编码器,然后用 encoder_outputs 记录编码器每一步的输出和最后一步的隐藏层状态。然后,我们给解码器输入 “<SOS>” 符号作为第一个输入,然后把编码器最后一步的隐藏层状态作为解码器第一步的隐藏层状态。
“Teacher forcing”是一个加速RNN收敛的技巧。如下图所示:
我们原本是拿RNN上一步的预测值yt-1作为当前的输入xt,这个方法叫做自回归(Autoregressive)。但是,RNN刚开始训练时,预测效果不好,如果一味任凭RNN自己训练,一旦它某一步预测错误,之后的预测就会偏离目标值越来越远;而“Teacher forcing”中用真实的目标单词y*t-1作为当前的输入xt,帮助模型学习与快速收敛。不过,“Teacher forcing"也存在着问题:当我们用训练好的模型进行测试时,它可能会表现得不稳定。
因此,我们需要限制“Teacher forcing”和自回归的比例,用到了teacher_forcing_ratio
p的概率,选择"Teacher forcing”,输入真值y*t-1,有1-p的概率选择自回归,输入预测值yt-1。
teacher_forcing_ratio = 0.5 def train(input_tensor, target_tensor, encoder, decoder, encoder_optimizer, decoder_optimizer, criterion, max_length=MAX_LENGTH): encoder_hidden = encoder.initHidden() encoder_optimizer.zero_grad() decoder_optimizer.zero_grad() input_length = input_tensor.size(0) # 源语言句子长度 target_length = target_tensor.size(0) # 目标语言句子长度 encoder_outputs = torch.zeros(max_length,encoder.hidden_size,device=device) loss = 0 for ei in range(input_length): encoder_output, encoder_hidden = encoder( input_tensor[ei],encoder_hidden) encoder_outputs[ei] = encoder_output[0,0] # 保存encoder每一步的隐藏层状态 decoder_input = torch.tensor([[SOS_token]],device=device) # decoder的第一个输入是SOS decoder_hidden = encoder_hidden # encoder最后一步隐藏层状态 use_teacher_forcing = True if random.random()<teacher_forcing_ratio else False if use_teacher_forcing: # 强制输入target的input for di in range(target_length): decoder_output, decoder_hidden, decoder_attention = decoder( decoder_input, decoder_hidden, encoder_outputs) loss += criterion(decoder_output, target_tensor[di]) decoder_input = target_tensor[di] else: # 输入预测的input for di in range(target_length): decoder_output, decoder_hidden, decoder_attention = decoder( decoder_input, decoder_hidden, encoder_outputs) topv,topi = decoder_output.topk(1) decoder_input = topi.squeeze().detach() loss += criterion(decoder_output, target_tensor[di]) if decoder_input.item() == EOS_token: break loss.backward() encoder_optimizer.step() decoder_optimizer.step() return loss.item()/target_length
%matplotlib inline import matplotlib import matplotlib.pyplot as plt import matplotlib.ticker as ticker import numpy as np def showPlot(points): plt.figure() fig, ax = plt.subplots() # this locator puts ticks at regular intervals loc = ticker.MultipleLocator(base=0.2) ax.yaxis.set_major_locator(loc) plt.plot(points) def trainIters(encoder, decoder, n_iters, print_every=1000, plot_every=100,learning_rate = 0.01): start = time.time() plot_losses = [] print_loss_total = 0 plot_loss_total = 0 encoder_optimizer = optim.SGD(encoder.parameters(),lr=learning_rate) decoder_optimizer = optim.SGD(decoder.parameters(),lr=learning_rate) training_pairs = [tensorsFromPair(random.choice(pairs)) for i in range(n_iters)] criterion = nn.NLLLoss() for iter in range(1,n_iters+1): training_pair = training_pairs[iter-1] input_tensor = training_pair[0] target_tensor = training_pair[1] loss = train(input_tensor, target_tensor,encoder, decoder, encoder_optimizer, decoder_optimizer,criterion) print_loss_total += loss plot_loss_total += loss if iter % print_every ==0: print_loss_avg = print_loss_total/print_every print_loss_total = 0 print("%s (%d %d%%) %.4f"%(timeSince(start,iter/n_iters), iter, iter / n_iters*100, print_loss_avg)) if iter % plot_every == 0: plot_loss_avg = plot_loss_total / plot_every plot_losses.append(plot_loss_avg) plot_loss_total =0 showPlot(plot_losses) hidden_size = 256 encoder1 = EncoderRNN(input_lang.n_words, hidden_size).to(device) attn_decoder1 = AttnDecoderRNN(hidden_size, output_lang.n_words, dropout_p=0.1).to(device) trainIters(encoder1,attn_decoder1,75000,print_every=5000)
测试过程和训练过程相同,但是没有真值,因此我们将解码器上一步的预测值作为它当前的输入。它每预测一个词,我们就把这个词加入输出的字符串中,如果它预测到了“<EOS>” 符号,我们就停止RNN的循环。另外,我们还要保存解码器的注意力输出,之后用于画图。
def evaluate(encoder, decoder, sentence, max_length =MAX_LENGTH): with torch.no_grad(): input_tensor = tensorFromSentence(input_lang,sentence) input_length = input_tensor.size()[0] encoder_hidden = encoder.initHidden() encoder_outputs = torch.zeros(max_length,encoder.hidden_size,device=device) for ei in range(input_length): encoder_output, encoder_hidden = encoder(input_tensor[ei],encoder_hidden) encoder_outputs[ei] += encoder_output[0,0] decoder_input = torch.tensor([[SOS_token]],device=device) decoder_hidden=encoder_hidden decoded_words = [] decoder_attentions = torch.zeros(max_length, max_length) for di in range(max_length): decoder_output, decoder_hidden,decoder_attention = decoder(decoder_input,decoder_hidden,encoder_outputs) decoder_attentions[di] = decoder_attention.data topv, topi = decoder_output.data.topk(1) if topi.item() == EOS_token: decoded_words.append('<EOS>') break else: decoded_words.append(output_lang.index2word[topi.item()]) decoder_input = topi.squeeze().detach() return decoded_words, decoder_attentions[:di+1]
def evaluateRandomly(encoder,decoder,n=10):
for i in range(n):
pair = random.choice(pairs)
print('>', pair[0])
print('=', pair[1])
output_words, attentions = evaluate(encoder, decoder, pair[0])
output_sentence = ' '.join(output_words)
print('<', output_sentence)
evaluateRandomly(encoder1, attn_decoder1)
> elle est tres belle . = she s a beauty . < she s very beautiful . <EOS> > elle ecrit une lettre maintenant . = she is writing a letter now . < she is writing a letter now . <EOS> > vous etes tres sceptique . = you re very skeptical . < you re very skeptical . <EOS> > je suis quelque peu decu . = i m a little disappointed . < i m a little disappointed . <EOS> > ils jouent notre chanson . = they re playing our song . < they re playing our song . <EOS> > il est pareil a lui meme . = he is his usual self . < he is his his . <EOS> > vous etes en grand danger . = you re in grave danger . < you re in danger danger . <EOS> > ce sont de bonnes gens . = they are good people . < they are good people . <EOS> > je ne suis pas assez bien pour tom . = i m not good enough for tom . < i m not good enough tom . <EOS> > j ai peur qu il commette une erreur . = i am afraid he will make a mistake . < i am afraid he will make a mistake . <EOS>
我们画出在翻译某句句子时的注意力权重 attentions
output_words, attentions = evaluate(
encoder1, attn_decoder1, "je suis trop froid .")
def showAttention(input_sentence, output_words, attentions): # Set up figure with colorbar fig = plt.figure() ax = fig.add_subplot(111) cax = ax.matshow(attentions.numpy(), cmap='bone') fig.colorbar(cax) # Set up axes ax.set_xticklabels([''] + input_sentence.split(' ') + ['<EOS>'], rotation=90) ax.set_yticklabels([''] + output_words) # Show label at every tick ax.xaxis.set_major_locator(ticker.MultipleLocator(1)) ax.yaxis.set_major_locator(ticker.MultipleLocator(1)) plt.show() def evaluateAndShowAttention(input_sentence): output_words, attentions = evaluate( encoder1, attn_decoder1, input_sentence) print('input = ',input_sentence) print('output = ',' '.join(output_words)) showAttention(input_sentence, output_words, attentions) evaluateAndShowAttention("elle a cinq ans de moins que moi .") evaluateAndShowAttention("elle est trop petit .") evaluateAndShowAttention("je ne crains pas de mourir .") evaluateAndShowAttention("c est un jeune directeur plein de talent .")
input = elle a cinq ans de moins que moi .
output = she is five years younger than me . <EOS>
input = elle est trop petit .
output = she s too short . <EOS>
input = je ne crains pas de mourir .
output = i m not scared of dying . <EOS>
input = c est un jeune directeur plein de talent .
output = he s a very young . <EOS>
