赞
踩
上篇文章我们介绍了DRL用于对话系统的应用,看完论文我们会发现,其是在一个Seq-to-Seq模型的基础上进行重新训练进而得到效果的提升,那么自然我们会想到如何使用Seq-to-Seq模型构造基础的对话系统呢,接下来我会使用几篇文章来一步步介绍使用Seq-to-Seq构造对话系统过程中所用到的知识和代码。首先让我们从提出Seq-to-Seq模型的论文说起:
本文主要介绍下面几篇Seq-to-Seq刚被提出时的几篇文章:
这里不会详细的去介绍每一篇论文,而是从作者、时间线、模型结构、应用领域等几个方面介绍一下,因为我在看别人博客、论文的过程中发现这几篇论文总是会被提及,所以就简单做一个总结,至于Seq-to-Seq模型的细节我会放在下一篇文章中进行详细介绍。
论文地址:https://arxiv.org/pdf/1406.1078.pdf
发表于2014年6月份,作者是Cho、Bahdanau、Bengio,可以视为Seq-to-Seq的前身,目前引用量已高达1800+。
文章提出了一种RNN Encoder-Decoder的网络结构,如下图所示:之所以说它可以看作是Seq-to-Seq的前身(个人理解),是因为本文并未实现end-to-end训练,而是作为SMT翻译框架中的一部分进行训练。
从上图可以看出,先使用一个RNN模型将输入序列进行编码得到最终的隐藏层状态向量C作为输入序列的向量表示,然后接下来使用另外一个RNN模型对C进行解码,解码过程中每一步的输入是上一部的输出yt-1、上一时刻隐层状态ht-1和C向量,公式如下所示:
然后将所有输出yt
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。