赞
踩
目录
目录
这一章不重要,可直接跳到第二章
sensory memory 感官记忆
short-term memory 短期记忆
long-term memory 长期记忆
基本定义:由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制
模型对输入的X每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销
在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案
在选择信息的时候,不是从N个信息中只选择1个,而是计算N个输入信息的加权平均,再输入到神经网络中计算
Hard Attention就是指选择输入序列某一个位置上的信息,比如随机选择一个信息或者选择概率最高的信息。一般还是用soft attention来处理神经网络的问题。
soft attention:在encoder中每一个输出都会计算一个概率,例如图中的小女孩和飞盘
hard attention:encoder中只寻找需要的那个计算概率,图中只关注飞盘
将公式简化为一个X的变化:softmax(XX^T)X
这里默认X为行向量
向量内积,表示两个向量的夹角,一个向量在另一个向量上的投影
下面的运算模拟了 XX^T,查看结果的含义
投影的值大,说明两个向量的相关性高,如果不相关,垂直则为0
对向量内积结果计算softmax,结果为 0.4,0.4,0.2
加入softmax的含义
新的行向量就是"早"字词向量经过注意力机制加权求和之后的表示
提高模型的拟合能力,加入可训练参数矩阵W,起到缓冲的效果
Self Attention 顾名思义,指的【不是 Target 和 Source 之间的 Attention 机制】,而是 Source 内部元素之间或者 Target 内部元素之间发生的 Attention 机制,也可以理解为 Target=Source 这种特殊情况下的注意力计算机制
文本翻译的需求:输入机器学习→Machine learning
组成:Encoder、Decoder 和连接两者的 State Vector (中间状态向量) C
注:encoder与decoder见编码器总结笔记
先根据 C 生成 y1,再基于(C,y1)生成 y2,依此类推
不同单词的影响不同,基于同一个语义编码效果不好,引入多个C
计算 C1、C2 和 C3 时,分别使用不同的权重向量:
y1=g(C1,h0)
y2=g(C2,y1)
y3=g(C3,y1,y2)
D_k为为向量维度,原论文为64,根号64=8。主要用来做归一化
Q、K、V来源:向量X与参数矩阵的乘积
在淘宝中搜索 “笔记本” 运行逻辑
可分为以下三个阶段
其中相似性计算可采用以下几种方式
上述公式中的 Lx 表示输入语句的长度
需要的数据庞大,否则根本不需要忽略非重点
自注意力机制是注意力机制的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
自注意力机制在文本中的应用,主要是通过计算单词间的互相影响,来解决长距离依赖问题。
自注意力机制公式与注意力机制公式相同,但含义不同
3. 利用得到的Q和K计算每两个输入向量之间的相关性,也就是计算attention的值α,α的计算方法有多种,通常采用点乘的方式。最终所有输入的相关性矩阵为A=K^T·Q
4. 为了梯度的稳定,Transformer使用了score归一化,即除以根号d_k
5. 对A矩阵进行softmax操作或者relu操作得到A',以上过程见下图
6. 利用得到的A'和V计算每个输入向量a对应的self-attention层的输出向量b
第一个向量a1对应的self-attention输出向量b1举例,如下图
模型在对当前位置进行编码时,会过度的将注意力集中在自身的位置。
我们希望模型可以基于相同的注意力机制学习到不同的行为,然后将不同的行为作为知识组合起来,例如捕获序列内各种范围的依赖关系(例如,短距离依赖和长距离依赖)
多头注意力机制就是对注意力机制的简单堆叠,multi-headed Attention就是指用了很多个不同的权重矩阵计算出很多组K、Q、V
多头机制赋予 attention 多种子表达方式。
每一组都是随机初始化,经过训练之后,输入向量可以被映射到不同的子表达空间中。
初始化多组权重,将单头注意力叠加
输入一批X,输出一批Z,将多个版本的Z拼接为一个长向量,
然后用一个权重矩阵相乘,压缩为一个短向量Z,用作下游任务的输入
4.3 一些问题解答
六、Transformer
七、参考资料:
1、李宏毅课程主页:https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html
快速直达注意力机制课件:https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/self_v7.pdf
2、Self-Attention和Transformer - machine-learning-notes (gitbook.io)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。