赞
踩
四个实验对比分析,第一个实验Encoder+LSTM(多层)+Decoder(最普通),Seq2Seq(Encoder+GRU(单层)+Decoder) 上下文向量仍然需要包含有关源句子的所有信息,共同学习(Decoder+Attention+Decoder) ,Packed Padded Sequences, Masking, Inference and BLEU
即第二个实验使我们减少了一些压缩,我们的上下文向量仍然需要包含有关源句子的所有信息。
此实验实现的模型通过允许解码器在每个解码步骤中查看整个源句子(通过其隐藏状态)来避免这种压缩!它是如何做到的?它使用Attention。
注意首先通过计算注意向量
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。