赞
踩
最近常看到transformer框架下的论文,且知道transformer势头大盛,但对transformer缺乏了解,所以就记录下关于transformer的完整学习过程,从最基本的部分开始学习这里做以记录。
常见的应用场景为nlp问题。以机器翻译为例:
英语输⼊:“They”、“are”、“watching”、“.”
法语输出:“Ils”、“regardent”、“.”
我们的目标就是完成这个翻译任务。而在翻译任务中,输入和输出是不定长的。用于分析处理不定长输入的RNN网络即encoder,用于生成不定长输出的RNN网络即decoder。这二者共同构成的结构即Seq2Seq,并同时进行训练。
如图描述了这个机器翻译任务的实现过程。蓝色部分为编码器,eos意为end of seq代表输入的结束。每个时间段t对encoder的输入即要翻译的句子的一个单词或标点或eos。在这个图中,将encoder的最终状态(即输入完eos)作为整个输入的representation。而每个时间片都以前一个时间片的状态和当前输入为输入。
右侧白色部分为decoder,bos意为begin of seq代表输出的开始。每个decoder
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。