Seq-to-Seq with Attentions: 1)不同于之前只把最后一层encoder生成的hidden layer递给decoder,现在encoder生成的所有的hidden layers都要递给decoder,然后让decoder自己来判断当它想翻译一个字(例如f3 -> e3)的时候,它会更多更多地参考哪个 f i , i ≠ 3 f_i, i \ne 3 fi,i=3词向量,所以decoder的第一层hidden states其实是一个weighted sum of encoder hidden states。 2)所以整个流程是: - encoder生成所有的hidden layers, h 1 e h_1^e h1e,…, h n e h_n^e hne - decoder接收到 < E N D > <END> <END>的词向量,和一个initial decoder hidden layer h i n i t d h^d_{init} hinitd,生成 h n + 1 d h_{n+1}^d