搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
2023面试高手
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
Pycharm设置项目的python环境与界面上terminal的shell运行环境_如何在pycharm运行python时和idle shell一样
2
【Linux】动态库与静态库
3
基于FPGA的DDS设计_fpga dds
4
【无人机】强化学习的多无人机移动边缘计算与路径规划【含Matlab源码 2426期】_强化学习多无人机
5
LinkedHashMap 源码解读_public class linkedhashmapdemo { public static voi
6
【超级全面】jenkins通过SSH凭证方式拉取Gitee代码(含错误解决方法)_ssh方式拉取代码
7
阿里云OSS(对象存储)_阿里云oss存储
8
java post文件_Java 后台POST模拟文件上传
9
Android 图片的放大与缩小、Glide实现图片圆角、圆形、高斯模糊等功能,图片3D倒影显示。_glide设置圆角同时缩放
10
软件测试的方法一共有几种_软件测试方法
当前位置:
article
> 正文
Transformer的前世今生 day10(Transformer编码器、解码器)
作者:2023面试高手 | 2024-03-30 06:06:02
赞
踩
Transformer的前世今生 day10(Transformer编码器、解码器)
前情提要
ResNet(残差网络)
由于我们加更多层,更复杂的模型并不总会改进精度,可能会让模型与真实值越来越远,如下:
我们想要实现,加上一个层把并不会让模型变复杂,即没有它也没关系,于是我们将残差块加入快速通道来实现,如下:
g(x)作为激活函数的输入,x作为模型的输入,f(x)为加上的层的输出,那么原本g(x) = f(x)
加入残差块x后,g(x) = f(x) + x,表明即使f(x)没有得出很好的结果,那我也可以直接用x来作为激活函数的输入,绕过f(x)
残差块使很深的网络更加容易训练,因为我们总可以走快速通道让模型忽略掉某些层,即我们可以先训练容易的层
Transformer编码器
编码器包括两个子层:Self-Attention、Feed Forward,缩略图如下:
每一个子层的传输过程中都会经过 残差网络 + 归一化,编码器详细图如下:
流程为:
从Thinking得到绿色的x1(通过one-hot、Word2Vec来得到简易版的词向量),
由于下一步的Self-Attention没有位置关系,所以要先叠加一个位置编码得到黄色的x1,
输入Self-Attention中,让 x1 与 x1、x2拼接起来的一句话做注意力,得到z1(x1做完自注意力后的词向量,表征的仍然是Thinking,z1拥有了位置特征、句法特征、语义特征),
经过残差网络+归一化,(残差网络可以避免梯度消失,当w3(w2(w1x+b1)+b2)+b3,如果w1、w2、w3特别小,那么w3(w2(w1x+b1)+b2) = 0,x就消失了,而经过一个残差网络后,w3(w2(w1x+b1)+b2)+b3+x,在最末尾加上x,就算前面的x消失了,还有最后一个x兜底。归一化可以避免梯度爆炸,类似softmax之前需要除一个数,防止结果不合理),得到了深粉色的z1
经过Feed Forward(前馈传播,通过Feed Forward中的激活函数做非线性变换),由于之前的每一步都在做线性变换(wx+b),而线性变换的叠加永远是线性变换,如果不加非线性变换,那么模型拟合不了复杂函数,
再经过残差网络+归一化,得到r1(Thinking的新的词向量)
综上:Transformer编码器最终得到了一个更加优秀的词向量
Transformer解码器
解码器会接收编码器生成的词向量,然后通过这个词向量去生成翻译的结果,缩略图如下:
解码器层的Self-Attention是masked Self-Attention,因为在训练阶段,我们知道真实的完整结果是什么,但是在测试阶段,我们的结果是一个一个生成的,如果不做masked,那么测试和训练阶段就不匹配,如下:
Encode-Decoder Attention是为了解决Self-Attention只能处理Q、K、V同源,而编码器-解码器注意力的Q、K、V不同源,且编码器提供K、V,解码器提供了Q,如下:
由于最后的Feed Forward只是生成词向量,所以还需要Linear层来转换词向量为词典维度,最后通过softmax层来得到最大概率的词
参考文献
16 Transformer 的编码器(Encodes)
17 Transformer 的解码器(Decoders)
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/2023面试高手/article/detail/339379
推荐阅读
article
论文阅读——
Rein
_
rein
transformer
...
_
rein
transformer
rein
transformer
Stronger, Fewe...
赞
踩
article
AI:
Transformer
架构
简介及实践
_
ai
transformer
...
其中这些给出的提示就可以看作是key,而整个的文本信息就相当于是query,value的含义则更抽象,可以比作你看到这段...
赞
踩
article
释放
生成式
AI 中
Transformer
的创造力_
from
transformers
impo...
在不断发展的人工智能领域,近年来有一个名字脱颖而出:
Transformer
。这些强大的模型改变了我们在人工智能中处理生...
赞
踩
article
AI
大
模型
应用
入门实战与进阶:深入理解
Transformer
架构
_
大
数据ai
transformer
...
Transformer
是Google在2017年提出的一种新型神经网络
架构
1,它被广泛
应用
于自然语言处理(NLP)领域,...
赞
踩
article
Transformer
架构
逐层
功能介绍
和
详细解释
_
逐层
特征
外化...
多年来,深度学习一直在不断发展。深度学习实践高度强调使用大量参数来提取有关我们正在处理的数据集的有用信息。通过拥有大量参...
赞
踩
article
AI
Transformer
:
最新进展
及其应用场景解析
_
transformer
最新进展
...
作者:禅与计算机程序设计艺术 1.简介随着人工智能(
AI
)技术的飞速发展,深度学习(DL)和Transforme...
赞
踩
article
AI
大
模型
应用入门实战与进阶:4.
Transformer
模型
的
实战与进阶_大
模型
transfor...
1.背景介绍
Transformer
模型
是一种深度学习
模型
,由Google
的
AI
研究团队在2017年发表
的
论文《Atten...
赞
踩
article
人工智能
大
模型
原理
与应用实战:从
Transformer
到
Vision
Transformer
...
人工智能
(Artificial Intelligence, AI)是计算机科学的一个分支,研究如何让计算机模拟人类智能。...
赞
踩
article
[论文阅读]
CenterFormer
——基于
center
的三维目标检测Trans
for
mer_cen...
本文介绍了一种基于
center
的三维目标检测Trans
for
mer——
CenterFormer
。该方法在处理LiDAR点...
赞
踩
article
【
Transformer
】
基于
Transformer
的
目标
检测
算法
综述_
transformer
目标
检...
基于
Transformer
的
目标
检测
算法
的研究综述_
transformer
目标
检测
综述
transformer
目标
检测
综述...
赞
踩
article
单目标追踪——【Trans
for
mer】
Learning
Spatio
-
Temporal
Trans...
这篇文章提出了一个端到端的Trans
for
mer架构,一共有两个具体实现的网络结构——Baseline网络【仅考虑空间特...
赞
踩
article
(
DSTT
)
Decoupled
Spatial-
Temporal
Trans
for
mer
for
V...
Abstract Video inpainting aims to fill the given spatiotempo...
赞
踩
article
ICCV
2021
论文
汇总!
Vision
Transformer
...
作者丨AI算法与图像处理@知乎来源丨https://zhuanlan.zhihu.com/p/395764136编辑丨计...
赞
踩
article
《论文阅读》
PCT
:
Point
Cloud
Transformer
...
留个笔记自用
PCT
:
Point
Cloud
Transformer
做什么点云的概念:点云是在同一空间参考系下表达目标空...
赞
踩
article
【3D目标
分类
】
PCT
:
Point
Cloud
Transformer
...
文章目录前言摘要1.介绍2.相关工作3.
Transformer
for
Point
Cloud
Representati...
赞
踩
article
基于深度
学习
方法的
点云
算法4——
PCT
:
Point
Cloud
Transformer
(
点云
分类
分...
不规则域和缺乏有序性使得设计用于
点云
处理的深层神经网络具有挑战性。提出了一种新的
点云
学习
框架
Point
Cloud
Tr...
赞
踩
article
「论文阅读」
PCT
:
Point
Cloud
Transformer
...
目录
PCT
的点云处理编码器(Encoder):物体分类语义分割法线估计Naive
PCT
S
PCT
全
PCT
受Transfo...
赞
踩
article
论文解读
PCT
:
Point
Cloud
Transformer
(用于
点云
处理
的Transforme...
最近几年transformer越来越火,在NLP、CV等领域都取得了很大的成功。这篇文章作者利用了transformer...
赞
踩
article
三维目标检测
---
PointCloudTransformer
论文解读
_
point
cloud
tra...
代码链接paper链接论文总结本文提出了一种在适用于点云的Transformer结构。根据点云数据的特点进一步改善了Tr...
赞
踩
article
【论文笔记】
PCT
:
Point
Cloud
Transformer
...
这是清华大学在2021年3月上传的关于将transformer应用在点云上的一篇论文。与其同期的还有两篇相似论文。本篇论...
赞
踩
相关标签
人工智能
深度学习
机器学习
transformer
注意力机制
架构
原理
计算
大数据
语言模型
AI
大模型
LLM
Java
Python
架构设计
Agent
RPA
神经网络
自然语言处理
编程实践
开发语言