1. 介绍
1.1 Deep NLP
自然语言处理(Natural Language Processing,NLP)是计算机科学、人工智能和语言学领域交叉的分支学科,主要让计算机处理或理解自然语言,如机器翻译,问答系统等。但是因其在表示、学习、使用语言的复杂性,通常认为 NLP 是困难的。近几年,随着深度学习(Deep Learning, DL)兴起,人们不断尝试将 DL 应用在 NLP 上,被称为 Deep NLP,并取得了很多突破。其中就有 Seq2Seq 模型。
1.2 来由
Seq2Seq Model是序列到序列( Sequence to Sequence )模型的简称,也被称为一种编码器-解码器(Encoder-Decoder)模型,分别基于2014发布的两篇论文:
- Sequence to Sequence Learning with Neural Networks by Sutskever et al.,
- Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation by Cho et al.,
作者 Sutskever 分析了 Deep Neural Networks (DNNs) 因限制输入和输出序列的长度,无法处理未知长度和不定长的序列;并且很多重要的问题都使用未知长度的序列表示的。从而论证在处理未知长度的序列问题上有必要提出新解决方式。于是,创新性的提出了 Seq2Seq 模型。下面让我们一起看看这个模型到底是什么。
2. Seq2Seq Model 之不断探索
为什么说是创新性提出呢? 因为作者 Sutskever 经过了三次建模论证,最终才确定下来 Seq2Seq 模型。而且模型的设计非常巧妙。让我们先回顾一下作者的探索经历。语言模型(Language Model, LM)是使用条件概率通过给定的词去计算下一个词。这是 Seq2Seq 模型的预测基础。由于序列之间是有上下文联系的,类似句子的承上启下作用,加上语言模型的特点(条件概率),作者首先选用了 RNN-LM(Recurrent Neural Network Language Model, 循环神经网络语言模型)。<br /><br />上图,是一个简单的 RNN 单元。RNN 循环往复地把前一步的计算结果作为条件,放进当前的输入中。<br />适合在任意长度的序列中对上下文依赖性进行建模。但是有个问题,那就是我们需要提前把输入和输出序列对齐,而且目前尚不清楚如何将 RNN 应用在不同长度有复杂非单一关系的序列中。为了解决对齐问题,作者提出了一个理论上可行的办法:使用两个 RNN。 一个 RNN 把输入映射为一个固定长度的向量,另一个 RNN 从这个向量中预测输出序列。<br /><br />为什么说是理论可行的呢?作者 Sutskever 的博士论文 TRAINING RECURRENT NEURAL NETWORKS (训练循环神经网络)提出训练 RNN 是很困难的。因为由于 RNN 自身的网络结构,其当前时刻的输出需要考虑前面所有时刻的输入,那么在使用反向传播训练时,一旦输入的序列很长,就极易出现梯度消失(Gradients Vanish)问题。为了解决 RNN 难训练问题,作者使用 LSTM(Long Short-Term Memory,长短期记忆)网络。<br /><br />上图,是一个 LSTM 单元内部结构。LSTM 提出就是为了解决 RNN 梯度消失问题,其创新性的加入了遗忘门,让 LSTM 可以选择遗忘前面输入无关序列,不用考虑全部输入序列。