赞
踩
注意点:
For example
案例:英文 it is a cat. 翻译成中文的过程。
→ 中间的「向量 c」长度都是固定的
Attention 如何准确将注意力放在关注的地方呢?
引入 Attention 的 Encoder-Decoder 框架下,完成机器翻译任务的大致流程如下:
Attention 机制
self-Attention
Multi-Head Attention
Transformer 中 Encoder 由 6 个相同的层组成,每个层包含 2 个部分:
Decoder 也是由 6 个相同的层组成,每个层包含 3 个部分:
上面每个部分都有残差连接 (redidual connection),然后接一个 Layer Normalization。
encoder-decoder的局限性:
编码和解码之间的唯一联系就是一个固定长度的语义向量C。编码器要将整个序列的信息压缩进一个固定长度的向量中去 。
注意力模型:
模型在产生输出的时候,还会产生一个“注意力范围”表示接下来输出的时候要重点关注输入序列中的哪些部分,然后根据关注的区域来产生下一个输出,如此往复。
attention模型最大的区别就在于它不在要求编码器将所有输入信息都编码进一个固定长度的向量之中。
编码解码器的表示:
几点说明
Seq2Seq与Encoder-Decoder的关系
Encoder-Decoder强调的是模型设计(编码-解码的一个过程),Seq2Seq强调的是任务类型(序列到序列的问题)。
Encoder-Decoder的四种模式
最简单的解码模式:
带输出回馈的解码模式
带编码向量的解码模式
带注意力的解码模式
参考链接:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。