搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
运维做开发
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
2023 hnust 湖南科技大学 大数据技术与应用 期末考试 复习资料_1.画出region与region服务器之间的对应关系图(hregion的分布方式)
2
六种本地化运行大语言模型的方法(2024.1月)_本地语言模型
3
论文阅读:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation_dreambooth论文
4
人工智能与数据分析:新时代的趋势和机会_数据分析和人工智能
5
mysql事务没有提交会释放锁吗
6
PostgreSQL 视图_postgres中视图的作用
7
深入理解计算机系统 CSAPP 家庭作业6.23
8
这么多年,终于有人讲清楚Transformer了_transform编码器重复堆叠的数量由什么决定
9
java框架的作用_java三大框架的作用介绍
10
Vue3框架下的顶尖UI组件库大盘点_vue3 ui框架
当前位置:
article
> 正文
注意力机制----transformer中注意力机制_transformer注意力机制
作者:运维做开发 | 2024-06-27 16:51:10
赞
踩
transformer注意力机制
通过一张PPT快速了解positional embedding:
【论文复现代码数据集见评论区】Transformer(Attention is all you need)自然语音处理必读论文,为你提供论文复现+代码精讲_哔哩哔哩_bilibili
12分55秒
初步印象:
目的: 使用q在k中找到v的值
总体形式: 里面: 矩阵相乘+归一化+外面: 和向量相乘(解释: 向量的行数应该就是要用注意力分配权重的id数)
注意力机制的计算:
方式一: 以句子翻译+q,k,v理解:
最初的embedding: 文本向量+位置向量
矩阵的行数: 字数
batch_size: 句子个数
三个需要通过参数学习的矩阵: q,k,v. 大小: 行和列都是embedding的大小
初始的embedding通过 三个权重矩阵 之后 得到三个 attention中最为重要的要素: q,k,v
将q,k,v分割, 得到multi-head: 将embedding的那个方向给切了
multi-head到底有什么作用? : 相当于CNN中的卷积核, 提取多重语义
Q*K: 让每个词 和 其它各个词相乘: 得到 : 一个词对应其它词的权重表(当然,肯定是自己和自己关系最密切)
因为它是矩阵, 所以实现了并行, 寻找一个词和其它的词的关系, 不用像RNN那样先处理一个词, 再处理一个词
按行归一化
和v 相乘(每一行代表一个字, 即给每一个字赋权重)\
每个字向量都含有当前句子中所有字向量的信息
处理多头attention: 将每个头的输出直接
拼接
起来 经全连接层(线性变换,
改变矩阵形状
),
得到最终输出
attention mask: 有些部分为0, 但是在归一化的时候, 直接弄成0分子会成1, 所以会设置成负无穷, 分子就会是0???
方式二: 以q, a, c, s理解:
要计算s_j就要先计算c_j, 要计算c_j就要先计算a_j:
将decoder当前状态s_j与m个h_i做运算得到权重向量(权重的具体计算见下)
h_i,s_j 各自乘以权重矩阵W_K,W_Q
k,q进行内积
经softmax
一共有三个“权重矩阵”:
在seq2seq版本注意力机制中,c的更新依靠: a和h(encoder状态)
在transformer版本的注意力机制中,c的更新依靠:a和v
去掉RNN层,只保留attention层:
transformer的组成:attention层 + self attention层 + 全连接层
目标是得到去掉RNN只留有attention的模型
encoder输入:x_i
decoder输入:通过所有x_i + x'_i得到下一个x'_i
对于encoder输入向量X:分别乘以权重矩阵W_K和W_V:得到k,v
对于decoder输入值x':乘以权重矩阵W_Q : 得到q
用一个q和每个k可以得到:a
a和v做向量内积可以得到c
对接下来的decoder输入都是同理
所以,就会得到每一个decoder输入的c,作为attention层的输出
整体看来:就是用k,q,v得到了c
即,c是x和x'的函数
可以在输出的基础上加softmax,加分类器
将上一个输出作为下一个输入
可以将attention网络看成一个C=Attn(X,X‘)函数
接下来说明self-attention
attention和self-attention的区别就是:
attention用于seq2seq模型,是encoder-decoder的结构,有两方面输入
self-attention用于单个模型,只有一方面输入
self-attention网络,对于输入x有分别乘以三个权重矩阵之后,得到三个输出
所以,对于每一个x都有三个输出
a1:一个q+所有k
同理,算出所有的a
a,v点成得到c
同理,算出其它c
self-attention的输出就是c
同样地,可以将self-attention网络看成是一个C=Attn(X,X)函数
15:attention
16: self-attention
17:transformer
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/运维做开发/article/detail/763099
推荐阅读
article
文本表示(一)——
word2vec
(
skip
-gram
CBOW
)
glove
, transfo...
文本离散表示1.one-hot简单说,就是用一个词典维度的向量来表示词语,当前词语位置为1,其余位置为0.例如vocab...
赞
踩
article
YOLOv5
改进 | 主干网络 | 将
backbone
替换为
Swin
-
Transformer
结构【论...
YOLOv5
入门,改进加涨点,yolov8,目标检测,目标跟踪_
yolov5
swin
-
transformer
yolov...
赞
踩
article
NLP
/
Transformer
/
BERT
/
Attention
面试
问题
与答案_
attention
面试题...
主要聚焦目前处于
NLP
舞台中央的
Transformer
/
BERT
/后
BERT
和 Self
Attention
。筛选的问...
赞
踩
article
算法高频
面试题
:
Attention
和
Transformer
灵魂七问_
attention
和
tra...
本文详细介绍了
Transformer
模型及其背后的
Attention
机制,包括机器翻译中的应用、Query-Key-Va...
赞
踩
article
CNN
与
Transformer
的
强强联合
!谷歌最新开源
BoTNet
,
ImageNet
达 8...
Conv+
Transformer
=BotNet,这是伯克利、谷歌最新提出
的
工作BotNet,它充分利用了
CNN
与自注意力...
赞
踩
article
【表面
缺陷
检测
】基于
YOLOX
的
PCB表面
缺陷
检测
(全网最详细
的
YOLOX
保姆级教程,附代码和数据集...
手把手系列教程:基于
YOLOX
的
PCB表面
缺陷
检测
(全网最详细
的
YOLOX
保姆级教程)_pcb
defect
detec...
赞
踩
article
Transformer
Decoder
_
positional
encoding
:
since
tra...
In the context of the
Transformer
model, the
Decoder
is resp...
赞
踩
article
【
NLP
】第7章
使用
GPT
-
3
引擎的Suprahuman Transformers的崛起_su...
(2020) 描述了 OpenAI
GPT
-
3
模型的训练,该模型包含 1750 亿个参数,这些参数
使用
巨大的数据集学习...
赞
踩
article
一站式解读
多
模态
——Transformer、Embedding、主流
模型
与通用
任务
实战(下)_
多
任务
...
本篇针对
多
模态
模型
展开详述,总结经典
模态
对齐策略,结合
多
模态
项目进行实战。_
多
任务
模型
训练
transformer
多
任务
...
赞
踩
article
超
详细
解读
Transformer
框架
!建议收藏!
_
transform
框架
...
首先我们先对
Transformer
来个直观的认识。
Transformer
出现以前,NLP领域应用基本都是以RNN或LST...
赞
踩
article
浅析
Transformer
Stage
在 Data
Stage
作业中的
用
法及功能实现_datas...
产品背景介绍IBM InfoSphere Data
Stage
是业界主流的 ETL(Extract, Transform...
赞
踩
article
datastage
--自己
定义
函数
_
datastage
8.5
transformer
自
定义
mat...
g++ -O -fPIC -Wno-deprecated -c -m32 test.cpp.自己
定义
routines1....
赞
踩
article
Data
stage
java
transformer
stage
...
import
java
.io.BufferedReader;import
java
.io.InputStreamRead...
赞
踩
article
DataStage
_Transformer常用
函数
_
datastage
transformer
函数
...
Date$Time
函数
名称 测试用列 描述 测试结果 ...
赞
踩
article
datastage
transformer
函数总结
_
ds
transformer
function
...
详见官方文档:http://pic.dhe.ibm.com/infocenter/iisinfsv/v8r5/index...
赞
踩
article
图解
Transformer
+
DSSM
_
dssm
transformer
...
图解
Transformer
https://blog.csdn.net/qq_41664845/article/detai...
赞
踩
article
粗读DS-
TransUNet
:
Dual
Swin
Trans
for
mer U-Net
for
Me...
本文的用了双胞胎网络,通过不同的patch_size,关注不同尺寸的信息,然后利用TIF模块进行融合,解决ViT无法兼顾...
赞
踩
article
【医学图像分割】
MIXED
Transformer
、DS-
TransUNet
、
Swin
-
Unet
...
_ds-transunetds-transunet &nbs...
赞
踩
article
DS
Transunet
:用于医学
图像
分割的双
Swin
-
Transformer
U-
Net
_ds-t...
DS-TransU
Net
图像
分割_ds-
transunet
ds-
transunet
...
赞
踩
article
mix
_
transformer
_demo_
mix
transformer
...
mix
_
transformer
_demo_
mix
transformer
mix
transformer
...
赞
踩
相关标签
自然语言处理
深度学习
机器学习
tensorflow
YOLO
transformer
目标跟踪
YOLOv5
yolov8
bert
算法
模型微调
大模型
人工智能
面试题
神经网络
计算机视觉
python