赞
踩
前文提到过用CNN、RNN、来解决隐藏在文本背后的语义问题,进而进行模型的训练。LSTM在解决长距离文本存在的依赖。
LSTM在所有涉及时间序列、离散序列和NLP领域问题的应用中都取代了RNN。
LSTM主要解决两个问题:在模型训练的过程中选择记住什么以及学习预测目标标签(学习需要记住的信息,同时学习输出信息。)。
相对于CNN,RNN其实在上下文依赖关系进行了改进,在一定程度上解决了相近的上下文依赖。LSTM正解决了距离较远时词与词之间仍然存在依赖关系,使得循环神经网络具有更深层次的记忆功能。
在以下几方面都是LSTM的优点:
LSTM 使用一种门控循环单元(GRU【gated recurrent unit】),可以有效保持长短期记忆。(如下图所示)
其中逐一介绍遗忘门:
流程如图
随着新依赖关系的出现而忘记长期依赖关系,遗忘门的激活函数是sigmoid函数,因为神经元的输出需要在0到1之间。1保留0删除
候选门
会学习在将不合适信息添加到元细胞的记忆之前屏蔽掉它们。
左侧:学习要更新记忆向量的哪些输入值
右侧:使用多大的值来更新记忆
主要完成:
1.决定哪些输入向量值得记住
2.将记住的输入元素按规定路线放置到正确的记忆“槽”
输出门
输入:t时刻元胞的输入和t-1时刻元胞的输出的链接
将掩码向量(n维记忆向量)与输出门第一步中计算的原始向量按元素相乘,得到的n维结果向量作为元胞在t时刻的正式输出最终从元胞输出。
防止过拟合的同时降低精确率
预训练的word2vec模型中找不到的词
解决办法:
1.从现有的嵌入模型中随机选择一个向量并使用它。
2.在重构原始输入时,用一个特定的词条替换词向量库中没有的所有词条——‘UNK’。
在提供一套专项领域的训练集时,它能成为一种特定的语言类型建模。
可以根据写作风格进行创作。
当没有兴趣推广模型到其他领域时采用这种方法对特定建模,不采用过拟合。
在固定的字符长度下,与完全由简单的单音节词组成的样本相比,具有大量长词的样本可能被欠采样。所以为了避免训练过程中的损失,采用独热向量。
数据集较小而且想要生成特定风格的文字,解决办法需要一个样本风格和音调更一致的数据集或者一个超大数据集。一般采用前者。
不总结了,啥也不是
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。