搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
煮酒与君饮
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
第六篇【传奇开心果系列】Python文本和语音相互转换库技术点案例示例:深度解读Kaldi库个性化定制语音搜索引擎_kaldi python 本地文件 语音转文字
2
Python训练的机器学习模型【保存】 和【加载】的方法?_python保存模型
3
探索数据的无尽可能:Perspective 开源项目深度解析
4
如何通过区块链撸毛获取收益_什么是撸毛
5
激光SLAM-ch1 激光SLAM简要概述
6
网易大模型 RAG 问答知识库开源,Star 超 6K!!_网易开源增强知识问答
7
一位同学的Python大作业【分析当当网书籍价格、出版社、电子书版本占比数据】_数据分析与应用大作业当当网
8
GPT引领前沿与应用突破之GPT4科研实践技术与AI绘图_gpt4 科研最新应用
9
【Pytorch】神经网络搭建_神经网络搭建思路
10
使用YOLO5进行模型训练机器学习【教程篇】
当前位置:
article
> 正文
Transformer的前世今生 day09(Transformer的框架概述)_alphago transformer
作者:煮酒与君饮 | 2024-07-11 03:13:38
赞
踩
alphago transformer
前情提要
编码器-解码器结构
如果将一个模型分为两块:编码器和解码器
那么编码器-解码器结构为:编码器负责处理输入,解码器负责生成输出
流程:我们先将输入送入编码器层,得到一个中间状态state,并送入解码器层,和额外的输入一同处理后,得到模型的输出
在机器翻译中:人是由他的所有社会关系所决定的,那么词也是由它的所有语义关系所决定的,而这些语义关系组成了一个潜空间,编码器干的事就是找到一个能够很好表示这个词的潜空间,并把这个词编码成潜空间中的对象,解码器干的事就是将这个潜空间中的对象换一种语言解码出来
CNN就可以重新表示为下图
RNN也可以表示为下图:
Seq2seq
序列到序列的模型:从一个句子生成到另一个句子
模型分为编码器、解码器两部分,其中,编码器可以是一个RNN,用来读取输入句子,解码器使用另外一个RNN来输出生成的句子
注意:由于在输入时,我们知道全部的输入句子,所以可以用两个RNN做双向,但是解码器是生成模型,不能看到完整的句子,所以不能做双向
注意:在编码器层,通过开始<bos>、结束<eos>来控制编码器的输出
编码器层的输出是不会作为模型的输出,相反它最后一层的输出作为编码器层输入的一部分,和编码器层额外的输入合并,整体作为编码器层的输入,即编码器层的最后隐藏状态,作为解码器的初始隐藏状态,如下:
Transformer的框架概述
NLP中预训练的目的:为了生成词向量
Transformer采用了seq2seq(序列到序列)的模型,整体框架如下:
seq2seq的模型基本都分为编码器层和解码器层,即从编码器到解码器的结构
使用机器翻译的场景来解释
在机器翻译的场景中:
编码器层:把输入变成一个词向量
解码器层:得到编码器层输出的词向量后,生成翻译的结果
同时,N * 的意思是:编码器层里面又有N个小编码器(默认N=6),一个编码器可以看作Self-Attention,而Self-Attention会对词向量做增强,经过6个编码器,那就是增强了6次
编码器层最后的输出会分别给6个解码器
因此,Transformer的关键就在于编码器和解码器,如下:
参考文献
15 Transformer 框架概述
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/煮酒与君饮/article/detail/808559
推荐阅读
article
Decision
Transformer
前沿
追踪——万物皆可
归于
序列
预测
...
DT(
Decision
Transformer
)将 RL 看做一个
序列
建模问题(Sequence Modeling Pr...
赞
踩
article
机器
学习
&&深度
学习
——
transformer
(
机器
翻译
的再
实现
)_
机器
翻译
算法(transform...
机器
学习
&&深度
学习
——
transformer
(
机器
翻译
的再
实现
)_
机器
翻译
算法(
transformer
)
机器
翻译
算法(...
赞
踩
article
什么是
Transformer
机器
学习
模型
?...
本文介绍了
Transformer
,一种深度
学习
模型
,如GPT中的T,通过自回归和注意力机制进行序列到序列的
学习
,如语言生...
赞
踩
article
2020李宏毅机器
学习
笔记
—
—
19.
Transformer
(全自
注意力
网络)_
attention
...
摘要:文章目录1.
Transformer
的引入2. Self-Attention1.
Transformer
的引入一般...
赞
踩
article
超
详细
解读
Transformer
框架
!建议收藏!
_
transformer
框架
...
首先我们先对
Transformer
来个直观的认识。
Transformer
出现以前,NLP领域应用基本都是以RNN或LST...
赞
踩
article
Transformer
机器翻译
模型原理(The
transformer
model
: A neura...
作者:禅与计算机程序设计艺术 1.简介在过去几年中,深度学习技术取得了突破性的进步。
Transformer
模型就...
赞
踩
article
Pytorch
Transformer
Tokenizer
常见
输入输出
实战详解_
tokenizer
....
Tokenizer
简介和工作流程
Transformer
s,以及基于BERT家族的预训练模型+微调模式已经成为NLP领域的...
赞
踩
article
【AM】JDI-T:
Jointly
Trained
Duration
In
for
med Trans...
本文提出了
Jointly
Trained
Duration
In
for
med
Trans
for
mer
(JDI-T)一种不...
赞
踩
article
【
Transformer
-Hugging
Face
手册 07/10】 微调预
训练
模型
_预
训练
模型
的
t...
使用预
训练
模型
有显着
的
好处。它可以降低计算成本和碳足迹,并允许您使用最先进
的
模型
,而无需从头开始
训练
。 预
训练
模型
的
to...
赞
踩
article
论文解读:
ChangeFormer
| A
TRANSFORMER
-
BASED
SIAMESE
NE...
1、本文实验中STANet居然没有FC-EF、FC-Siam-Di、FC-Siam-Conc这很有可能是backbone...
赞
踩
article
【论文笔记】A Trans
for
mer-
based
Siamese
network
for
chan...
论文提出了一种基于Trans
for
mer的孪生网络结构(),用于从一对已配准的遥感图像中进行变化检测(
change
de...
赞
踩
article
【遥感语义分割】
UNetFormer
_
unet
for
mer: a
unet
-
like
transfo...
原文:
UNetFormer
: An UNet-
like
Trans
for
mer
for
Efficient Semant...
赞
踩
article
时序
预测
|
KAN
+
Transformer
时间
序列
预测
(
Python
)_kan transform...
时序
预测
|
KAN
+
Transformer
时间
序列
预测
(
Python
)_kan
transformer
kan tran...
赞
踩
article
一文搞懂
Transformer
(总体
架构
& 三种
注意力
层)_
注意力
机制
包含
transform
架构
...
本文将从
Transformer
的本质、
Transformer
_的原理_、_
Transformer
的应用__三个方面,带您...
赞
踩
article
已
解决
javax
.
xml
.
transform
.TransformerFactoryConfigur...
已
解决
javax
.
xml
.
transform
.
TransformerFactoryConfigurationError
...
赞
踩
article
信息检索
(七):
Tr
a
nsformer
Memory
a
s
a
Differenti
a
ble Se
a
...
在本文中,我们证明可以使用单个
Tr
a
nsformer
来完成
信息检索
,其中有关语料库的所有信息都编码在模型的参数中。为...
赞
踩
article
ACC
-
UNet
——基于
Transformers
与
UNet
的语义
分割
模型
_
unet
transfor...
在过去十年中,计算机视觉领域经历了一场根本性的变革,这主要归功于视觉转换器(Visual
Transformers
)的引...
赞
踩
article
UNet
for
mer实现遥感城市场景影像的高效语义分割_
unet
for
mer:
a
unet
-lik...
UNetFormer:一种类似UNet的转换器,用于遥感城市场景影像的高效语义分割,ISPRS。此外,还包括用于卫星、航...
赞
踩
article
Swin
-
Unet
:
Unet
-
like
Pure
Transformer
forMedical I...
原文地址:https://arxiv.org/pdf/2105.05537.pdf收录:CVPR 2021代码:http...
赞
踩
article
[深度学习论文笔记]
Swin
-
Unet
:
Unet
-
like
Pure Trans
for
mer fo...
Swin
-
Unet
:
Unet
-
like
Pure Trans
for
mer
for
Medical
Image
Segm...
赞
踩
相关标签
transformer
深度学习
人工智能
机器学习
机器翻译
自然语言处理
GPT
AI
IBM
神经网络
语言模型
编程实践
开发语言
架构设计
pytorch