赞
踩
目录
机器翻译(machine translation)指的是 将序列从一种语言自动翻译成另一种语言。 事实上,这个研究领域可以追溯到数字计算机发明后不久的20世纪40年代, 特别是在第二次世界大战中使用计算机破解语言编码。 几十年来,在使用神经网络进行端到端学习的兴起之前, 统计学方法在这一领域一直占据主导地位 (Brown et al., 1990, Brown et al., 1988)。 因为统计机器翻译(statistical machine translation)涉及了 翻译模型和语言模型等组成部分的统计分析, 因此基于神经网络的方法通常被称为 神经机器翻译(neural machine translation), 用于将两种翻译模型区分开来。
机器翻译作为自然语言处理(NLP)领域的重要分支,已经有数十年的发展历史。从最早的基于规则的方法,到后来统计机器翻译(Statistical Machine Translation,SMT)的出现,再到如今深度学习方法的应用,机器翻译技术不断进步。然而,传统方法在处理长句子或上下文依赖问题时常常表现不佳。
随着深度学习的兴起,神经机器翻译(Neural Machine Translation,NMT)成为研究热点。然而,早期的NMT模型,如序列到序列(Seq2Seq)模型,在处理长句子时仍存在信息丢失的问题。为了解决这一问题,2015年,Bahdanau等人提出了注意力机制(Attention Mechanism),该机制允许模型在翻译时动态地“关注”源句子的不同部分,从而显著提升了翻译效果。
注意力机制的核心思想是为每个输出词动态计算与所有输入词的关联权重,从而生成加权求和的上下文向量。具体来说,注意力机制通过计算查询(query)、键(key)和值(value)三者之间的相似度来获得权重。这种方法不仅有效缓解了长句翻译中的信息瓶颈问题,还提高了翻译的准确性和流畅度。
注意力机制主要涉及三个核心组件:查询(Query),键(Key),值(Value)。这三个组件来自于输入数据,具体如下:
图2.2.1.1 注意力机制通过注意力汇聚将查询(自主性提示)和键(非自主性提示)结合在一起,实现对值(感官输入)的选择倾向¶
图2.2.2.1 计算注意力汇聚的输出为值的加权和¶
假设有一个序列到序列的任务,其中Query来自于目标序列的当前状态,而Keys和Values来自于源序列。注意力机制可以用下面的数学形式表达:
具体来说,令编码器在时间步
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。