赞
踩
当我们需要对一段文字进行处理的时候,我们需要将文字转变成一种可以放进神经网络里的形态
主流的有两种方法可以完成这个,就是以下两种方法
one-hot编码
word embedding
当我们将我们的词汇转变成了一个个的向量的时候,我们就可以将向量作为输入放入神经网络中进行训练了
那么我们会有什么样的输出呢?
有大概以下三种情况:
假如我们要做一个词性标注任务的时候,我们通过上述方法获取到了我们所要标注的序列的词向量表示,然后我们可以直接将这些词向量逐个放到全连接层去训练,最后神经网络会给出一个个的输出
但是这样有一个非常大的弊端,就是对于上图所示,可以看出第一个saw是动词,而第二个saw是名词,但是由于他俩长得一样,所以他俩的词向量按道理来说就应该是一样的,从而导致他俩的输出就是一样的,但是实际上,我们想要第一个saw输出动词,第二个saw输出名词
为了解决上述问题,所以这就要引出我们的注意力机制了
注意力机制在做什么呢?可以通过下图进行解释
当我们输入了一个向量,他会在考虑整个序列的情况下输出一个相对应的向量
就像我们读书一样,我们在阅读的时候,读完全篇和只读到一半的时候对这本书的理解是不一样的,同理,我们也可以添加多个注意力机制的层,类比我们一本书读多遍一样,如下图所示
那么注意力机制这一层到底干了啥事捏?
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。