赞
踩
按照教程一步一步来就可以了
机器翻译任务的预处理是确保模型能够有效学习源语言到目标语言映射的关键步骤。
预处理阶段通常包括多个步骤,旨在清理、标准化和转换数据,使之适合模型训练。以下是机器翻译任务预处理中常见的几个处理步骤:
编码器-解码器模型:
给定一个中文句子“我/对/你/感到/满意”,编码器会将这句话编码成一个实数向量(0.2, −1, 6, 5, 0.7, −2),这个向量就是源语言句子的“表示”结果。虽然有些不可思议,但是神经机器翻译模型把这个向量等同于输入序列。向量中的数字并没有实际的意义,然而解码器却能从中提取到源语言句子中所包含的信息。也有研究人员把向量的每一个维度看作是一个“特征”,这样源语言句子就被表示成多个“特征”的联合,而且这些特征可以被自动学习。有了这样的源语言句子的“表示”,解码器可以把这个实数向量作为输入,然后逐词生成目标语言句子“I am satisfied with you”。
编码器:由词嵌入层和中间网络层组成:
解码器:结构基本上和编码器是一致的,在基于循环神经网络的翻译模型中,解码器只比编码器多了输出层,用于输出每个目标语言位置的单词生成概率,而在基于自注意力机制的翻译模型中,除了输出层,解码器还比编码器多一个编码解码注意力子层,用于帮助模型更好地利用源语言信息。
RNN:基于循环神经网络的机器翻译模型
左侧为编码器部分,源语言单词按照其在文本序列中的先后顺序被依次送入到循环神经网络(RNN)当中。在每个时间步 t 中,模型依据送入的源语言单词
x
t
x_{t}
xt对应修改并维护其模型内部的隐状态
h
t
h_{t}
ht,这个隐状态编码了输入的源语言序列前 t 个时刻的所有必要信息。按照这种方式当 m 个输入全部被送入到编码器之后,所对应的
h
m
h_{m}
hm可以认为包含了源语言序列的所有信息。
右半部分是 RNN 解码器部分,它接收编码器输出的编码源语言句子信息的向量
h
m
h_{m}
hm作为初始隐状态
s
0
s_{0}
s0。由于 RNN 的循环过程在每个时间步都要求一个输入单词,为了启动解码过程,一般会使用一个保留的特殊符号 “[Start]” 作为翻译开始的标记送入到 RNN 解码器当中并解码出目标语言序列的第一个单词
z
1
z_{1}
z1。接下来,
z
1
z_{1}
z1 会作为下一个时刻的输入被送入到循环神经网络当中,并按照不断迭代产生后续的预测。由于目标语言序列的长度无法被提前预知,因此使用另一个保留符号 “[Stop]” 作为预测结束的标志。当某一个时刻 t 预测出的目标语言单词为
z
t
z_t
zt =“[Stop]” 时,解码过程动态地停止。在上述过程当中,主要涉及到两步运算,第一步是 RNN 接收前一时刻隐状态
s
t
−
1
s_{t-1}
st−1 并依据当前时刻输入
z
t
−
1
z_{t-1}
zt−1(目标语言单词
z
t
−
1
z_{t-1}
zt−1 对应的语义嵌入)对隐状态进行维护并生成
s
t
s_{t}
st的运算过程,第二步是依据当前时刻隐状态生成目标语言单词的过程:
s
t
=
t
a
n
h
(
z
t
−
1
U
+
s
t
−
1
W
)
p
t
=
S
o
f
t
m
a
x
(
s
t
V
)
s_t = tanh(z_{t-1}U+s_{t-1}W) \\ p_t = Softmax(s_tV)
st=tanh(zt−1U+st−1W)pt=Softmax(stV)
其中 U,W,V 是可学习的参数。U,W 负责维护循环状态,而 V 负责将当前时刻状态转换到词表大小的概率分布
P
∈
R
v
o
c
a
b
s
i
z
e
P \in R^{vocab_size}
P∈Rvocabsize,从中可以采样得到目标语言单词
z
t
z_{t}
zt。
RNN潜在的问题:通过循环网络对源语言文本进行编码,并生成目标语言翻译结果的过程十分简单。然而,它仅仅使用一个定长的向量
h
m
h_{m}
hm 编码整个源语言序列。这对于较短的源语言文本没有什么问题,但随着文本序列长度的逐渐加长,单一的一个向量
h
m
h_m
hm 可能不足以承载源语言序列当中的所有信息。
注意力机制:注意力机制的引入使得不再需要把原始文本中的所有必要信息压缩到一个向量当中。
传统的 Seq2Seq 模型在解码阶段仅依赖于编码器产生的最后一个隐藏状态,这在处理长序列时效果不佳。注意力机制允许解码器在生成每个输出词时,关注编码器产生的所有中间状态,从而更好地利用源序列的信息。具体来说,给定源语言序列经过编码器输出的向量序列
h
1
,
h
2
,
h
3
,
.
.
.
,
h
m
h_{1},h_{2},h_{3},...,h_{m}
h1,h2,h3,...,hm,注意力机制旨在依据解码端翻译的需要,自适应地从这个向量序列中查找对应的信息。
BLEU: 该方法使得机器翻译系统的评价变得自动、快速、便捷,而且评价过程可以重复。正是由于 BLEU 等自动评价方法的提出,机器翻译研究人员可以在更短的时间内得到译文质量的评价结果,加速系统研发的进程。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。