搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
羊村懒王
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
垂直同步_显示器自适应垂直同步即将大一统:NVIDIA有条件支持FreeSync
2
微信小程序的常见的面试题(总结)_小程序面试题
3
VMware中Kali Linux添加源,更新和安装vmtools_kali 2021.3安装vmtools
4
使用ElasticsearchRepository和ElasticsearchRestTemplate操作Elasticsearch,Spring Boot整合Elasticsearch_idea连接elasticsearch elasticsearchresttemplate
5
创维E900V22C、E900V22D_S905L3-L3B免拆卡刷固件_e900v22d刷机
6
GO开发环境配置_go环境配置
7
react实现HTML调摄像头拍照功能_react 拍照
8
php GET 和 POST 方法的区别_php get和post 区别
9
通俗讲解Pytorch梯度的相关问题:计算图、no_grad、zero_grad、retain_grad、detach和backward;Variable、Parameter和torch.tensor_pytorch retain_grad
10
cortex a7 a53_西昊人体工学椅A7开箱测评
当前位置:
article
> 正文
Transformer的前世今生 day09(Transformer的框架概述)
作者:羊村懒王 | 2024-03-30 06:05:35
赞
踩
Transformer的前世今生 day09(Transformer的框架概述)
前情提要
编码器-解码器结构
如果将一个模型分为两块:编码器和解码器
那么编码器-解码器结构为:编码器负责处理输入,解码器负责生成输出
流程:我们先将输入送入编码器层,得到一个中间状态state,并送入解码器层,和额外的输入一同处理后,得到模型的输出
CNN就可以重新表示为下图
RNN也可以表示为下图:
Seq2seq
序列到序列的模型:从一个句子生成到另一个句子
模型分为编码器、解码器两部分,其中,编码器可以是一个RNN,用来读取输入句子,解码器使用另外一个RNN来输出生成的句子
注意:由于在输入时,我们知道全部的输入句子,所以可以用两个RNN做双向,但是解码器是生成模型,不能看到完整的句子,所以不能做双向
注意:在编码器层,通过开始<bos>、结束<eos>来控制编码器的输出
编码器层的输出是不会作为模型的输出,相反它最后一层的输出作为编码器层输入的一部分,和编码器层额外的输入合并,整体作为编码器层的输入,即编码器层的最后隐藏状态,作为解码器的初始隐藏状态,如下:
Transformer的框架概述
NLP中预训练的目的:为了生成词向量
Transformer采用了seq2seq(序列到序列)的模型,整体框架如下:
seq2seq的模型基本都分为编码器层和解码器层,即从编码器到解码器的结构
使用机器翻译的场景来解释
在机器翻译的场景中:
编码器层:把输入变成一个词向量
解码器层:得到编码器层输出的词向量后,生成翻译的结果
同时,N * 的意思是:编码器层里面又有N个小编码器(默认N=6),一个编码器可以看作Self-Attention,而Self-Attention会对词向量做增强,经过6个编码器,那就是增强了6次
编码器层最后的输出会分别给6个解码器
因此,Transformer的关键就在于编码器和解码器,如下:
参考文献
15 Transformer 框架概述
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/羊村懒王/article/detail/339378
推荐阅读
article
论文阅读——
Rein
_
rein
transformer
...
_
rein
transformer
rein
transformer
Stronger, Fewe...
赞
踩
article
AI:
Transformer
架构
简介及实践
_
ai
transformer
...
其中这些给出的提示就可以看作是key,而整个的文本信息就相当于是query,value的含义则更抽象,可以比作你看到这段...
赞
踩
article
释放
生成式
AI 中
Transformer
的创造力_
from
transformers
impo...
在不断发展的人工智能领域,近年来有一个名字脱颖而出:
Transformer
。这些强大的模型改变了我们在人工智能中处理生...
赞
踩
article
AI
大
模型
应用
入门实战与进阶:深入理解
Transformer
架构
_
大
数据ai
transformer
...
Transformer
是Google在2017年提出的一种新型神经网络
架构
1,它被广泛
应用
于自然语言处理(NLP)领域,...
赞
踩
article
Transformer
架构
逐层
功能介绍
和
详细解释
_
逐层
特征
外化...
多年来,深度学习一直在不断发展。深度学习实践高度强调使用大量参数来提取有关我们正在处理的数据集的有用信息。通过拥有大量参...
赞
踩
article
AI
Transformer
:
最新进展
及其应用场景解析
_
transformer
最新进展
...
作者:禅与计算机程序设计艺术 1.简介随着人工智能(
AI
)技术的飞速发展,深度学习(DL)和Transforme...
赞
踩
article
AI
大
模型
应用入门实战与进阶:4.
Transformer
模型
的
实战与进阶_大
模型
transfor...
1.背景介绍
Transformer
模型
是一种深度学习
模型
,由Google
的
AI
研究团队在2017年发表
的
论文《Atten...
赞
踩
article
人工智能
大
模型
原理
与应用实战:从
Transformer
到
Vision
Transformer
...
人工智能
(Artificial Intelligence, AI)是计算机科学的一个分支,研究如何让计算机模拟人类智能。...
赞
踩
article
[论文阅读]
CenterFormer
——基于
center
的三维目标检测Trans
for
mer_cen...
本文介绍了一种基于
center
的三维目标检测Trans
for
mer——
CenterFormer
。该方法在处理LiDAR点...
赞
踩
article
【
Transformer
】
基于
Transformer
的
目标
检测
算法
综述_
transformer
目标
检...
基于
Transformer
的
目标
检测
算法
的研究综述_
transformer
目标
检测
综述
transformer
目标
检测
综述...
赞
踩
article
单目标追踪——【Trans
for
mer】
Learning
Spatio
-
Temporal
Trans...
这篇文章提出了一个端到端的Trans
for
mer架构,一共有两个具体实现的网络结构——Baseline网络【仅考虑空间特...
赞
踩
article
(
DSTT
)
Decoupled
Spatial-
Temporal
Trans
for
mer
for
V...
Abstract Video inpainting aims to fill the given spatiotempo...
赞
踩
article
ICCV
2021
论文
汇总!
Vision
Transformer
...
作者丨AI算法与图像处理@知乎来源丨https://zhuanlan.zhihu.com/p/395764136编辑丨计...
赞
踩
article
《论文阅读》
PCT
:
Point
Cloud
Transformer
...
留个笔记自用
PCT
:
Point
Cloud
Transformer
做什么点云的概念:点云是在同一空间参考系下表达目标空...
赞
踩
article
【3D目标
分类
】
PCT
:
Point
Cloud
Transformer
...
文章目录前言摘要1.介绍2.相关工作3.
Transformer
for
Point
Cloud
Representati...
赞
踩
article
基于深度
学习
方法的
点云
算法4——
PCT
:
Point
Cloud
Transformer
(
点云
分类
分...
不规则域和缺乏有序性使得设计用于
点云
处理的深层神经网络具有挑战性。提出了一种新的
点云
学习
框架
Point
Cloud
Tr...
赞
踩
article
「论文阅读」
PCT
:
Point
Cloud
Transformer
...
目录
PCT
的点云处理编码器(Encoder):物体分类语义分割法线估计Naive
PCT
S
PCT
全
PCT
受Transfo...
赞
踩
article
论文解读
PCT
:
Point
Cloud
Transformer
(用于
点云
处理
的Transforme...
最近几年transformer越来越火,在NLP、CV等领域都取得了很大的成功。这篇文章作者利用了transformer...
赞
踩
article
三维目标检测
---
PointCloudTransformer
论文解读
_
point
cloud
tra...
代码链接paper链接论文总结本文提出了一种在适用于点云的Transformer结构。根据点云数据的特点进一步改善了Tr...
赞
踩
article
【论文笔记】
PCT
:
Point
Cloud
Transformer
...
这是清华大学在2021年3月上传的关于将transformer应用在点云上的一篇论文。与其同期的还有两篇相似论文。本篇论...
赞
踩
相关标签
人工智能
深度学习
机器学习
transformer
注意力机制
架构
原理
计算
大数据
语言模型
AI
大模型
LLM
Java
Python
架构设计
Agent
RPA
神经网络
自然语言处理
编程实践
开发语言