当前位置:   article > 正文

基于注意力机制GRU网络的机器翻译_gru神经网络内部注意力机制

gru神经网络内部注意力机制

深度学习---机器翻译(GRU、注意力机制)

目录

一、机器翻译(MT)

二、注意力机制

2.1 背景

2.2 基本原理

2.2.1 基本概念

2.2.2 工作机制

2.2.3 数学表达

三、GRU门控循环单元

3.1 重置门和更新门

3.2 候选隐状态

3.3 最终隐藏状态

四、机器翻译实战(fr-en-small)

4.1 数据预处理

4.2 含注意力机制的编码器—解码器

4.2.1 编码器

4.2.2 解码器

4.3 模型训练

4.4 模型预测(预测不定长的序列)

4.5 模型评价

五、实验总结

六、参考文献

七、推荐阅读


一、机器翻译(MT)

        机器翻译(machine translation)指的是 将序列从一种语言自动翻译成另一种语言。 事实上,这个研究领域可以追溯到数字计算机发明后不久的20世纪40年代, 特别是在第二次世界大战中使用计算机破解语言编码。 几十年来,在使用神经网络进行端到端学习的兴起之前, 统计学方法在这一领域一直占据主导地位 (Brown et al., 1990Brown et al., 1988)。 因为统计机器翻译(statistical machine translation)涉及了 翻译模型和语言模型等组成部分的统计分析, 因此基于神经网络的方法通常被称为 神经机器翻译(neural machine translation), 用于将两种翻译模型区分开来。

        机器翻译作为自然语言处理(NLP)领域的重要分支,已经有数十年的发展历史。从最早的基于规则的方法,到后来统计机器翻译(Statistical Machine Translation,SMT)的出现,再到如今深度学习方法的应用,机器翻译技术不断进步。然而,传统方法在处理长句子或上下文依赖问题时常常表现不佳。


二、注意力机制

2.1 背景

        随着深度学习的兴起,神经机器翻译(Neural Machine Translation,NMT)成为研究热点。然而,早期的NMT模型,如序列到序列(Seq2Seq)模型,在处理长句子时仍存在信息丢失的问题。为了解决这一问题,2015年,Bahdanau等人提出了注意力机制(Attention Mechanism),该机制允许模型在翻译时动态地“关注”源句子的不同部分,从而显著提升了翻译效果。

2.2 基本原理

        注意力机制的核心思想是为每个输出词动态计算与所有输入词的关联权重,从而生成加权求和的上下文向量。具体来说,注意力机制通过计算查询(query)、键(key)和值(value)三者之间的相似度来获得权重。这种方法不仅有效缓解了长句翻译中的信息瓶颈问题,还提高了翻译的准确性和流畅度。

2.2.1 基本概念

注意力机制主要涉及三个核心组件:查询(Query),(Key),(Value)。这三个组件来自于输入数据,具体如下:

  • Query:当前或目标位置的表示,用于查找与之最相关的信息。
  • Key:与输入数据相关联的标识符,用于匹配查询。
  • Value:如果查询与键匹配,那么相关的值将被用来构造输出。

图2.2.1.1 注意力机制通过注意力汇聚将查询(自主性提示)和(非自主性提示)结合在一起,实现对(感官输入)的选择倾向

2.2.2 工作机制
  • 打分:系统计算查询与每个键之间的相似度或相关性得分。这通常通过点积或其他相似性函数(如加权和)来完成。
  • 归一化:使用softmax函数将得分转换为概率分布,确保所有得分的和为1,这样得分高的键对应的值将获得更高的关注度。
  • 加权和:将每个值乘以其对应键的归一化得分,然后将结果相加,得到最终的输出。输出是所有值的加权求和,权重由查询与每个键的匹配程度决定。

图2.2.2.1 计算注意力汇聚的输出为值的加权和

2.2.3 数学表达

        假设有一个序列到序列的任务,其中Query来自于目标序列的当前状态,而Keys和Values来自于源序列。注意力机制可以用下面的数学形式表达:

\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

        具体来说,令编码器在时间步

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/824805
推荐阅读
相关标签