赞
踩
前篇链接 link
- 上一章我们使用 RNN 生成了文本,又通过连接两个 RNN,将一个时序数据转换为了另一个时序数据。我们将这个网络称为 seq2seq,并用它成功求解了简单的加法问题。之后,我们对这个 seq2seq 进行了几处改进,几乎完美地解决了这个简单的加法问题。
- 本章我们将进一步探索 seq2seq 的可能性(以及 RNN 的可能性)。这里,Attention 这一强大而优美的技术将登场。Attention 毫无疑问是近年来深度学习领域最重要的技术之一。
- 本章的目标是在代码层面理解 Attention 的结构,然后将其应用于实际问题,体验它的奇妙效果。
形如“猫 = cat“是机器翻译中常见的对应关系,这种单词或词组对应关系的信息称为alignment(对齐)。Attention机制的关键就在于自动化学习对齐。
本书中,作者使用向量内积去计算隐藏状态间的相似度,还可以使用余弦相似度甚至使用一个小型的MLP直接学习相似度等等。
在翻译、语音识别等将一个时序数据转换为另一个时序数据的任务中,时序数据之间常常存在对应关系(alignment);
Attention 从数据中学习两个时序数据之间的对应关系;
Attention 使用向量内积(方法之一)计算向量之间的相似度,并输出这个相似度的加权和向量;
因为 Attention 中使用的运算是可微分的,所以可以基于误差反向传播法进行学习;
通过将 Attention 计算出的权重(概率)可视化,可以观察输入与输出之间的对应关系;
在基于外部存储装置扩展神经网络的研究示例中(如 NTM),Attention 被用来读写内存;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。