搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
小小林熬夜学编程
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【探索Linux】—— 强大的命令行工具 P.30(序列化和反序列化 | JSON序列化库 [ C++ ] )
2
后端返回文件流pdf 下载
3
【深度学习 九】transformer_transformer的encoder输出什么
4
分布式并行训练基础样例(CPU)_在cpu上分布式训练
5
Bag of Tricks for Efficient Text Classification (fastText) 学习笔记_fasttext model 镜像网站
6
SER | 语音情绪识别 | TIM-NET_SER项目实现,以及训练自己的语音数据集,后期修改网络_timnet
7
adb pull 使用
8
c++实验7——数组素数排序_c++素数升序排序
9
卷积神经网络CNN基本原理和相关基本概念_卷积核的值是固定的吗
10
Arcpy基础方法之Tools&Toolboxes_ta import concatenatedateandtimefields as concaten
当前位置:
article
> 正文
自然语言处理(NLP)入门——Transformer详解(1)_transformers的自然语言处理(nlp)入门
作者:小小林熬夜学编程 | 2024-04-03 17:21:32
赞
踩
transformers的自然语言处理(nlp)入门
Transformer的背景:
2017年发表的的Transformer论文
2018年出现
优势:
Transformer能够利用分布式GPU进行并行训练,提升模型训练效率.
在分析预测更长的文本时, 捕捉间隔较长的语义关联效果更好
. attention机制的使用.
Transformer结构解析
输入部分
源语言的文本嵌入层 + 位置编码器
目标语言的文本嵌入层 + 位置编码器
编码器部分
编码器是有N个编码器层组成
编码器层是由两个子层连接结构构成
第一个子层连接结构是由一个多头注意力和规范化层和残差连接
第二个子层连接结构是由一个前馈全连接层和规范化层和残差连接
解码器部分
解码器是有N个解码器层构成
一个解码器层是由三个子层连接结构构成
第一个子层连接结构是由一个多头的
自
注意力子层和规范化层和残差结构
第二个子层连接结构是由一个多个注意力子层和规范化层和残差连接
第三个子层连接结构是由一个前馈全连接层和规范化层和残差连接
输出部分
Linear层
softmax层
输入部分
文本嵌入层:
作用: 为了在更高维度的语义空间中捕捉词汇之间的联系
代码实现:
Embeddings: 在源文本嵌入和和目标文本嵌入层是共享
在实现的过程中embedding之后的结果*维度的开方, 目的是: 1.为了是嵌入层数值的量级和后面位置编码器的数值量级达到一个量级上, 2. 为了加快模型的训练过程
位置编码器
作用: Transformer在信息提取的过程中, 将位置信息缺失了, 为了添加位置信息, 所以在此处要添加位置编码器.
使用的函数: 正余弦函数, 在偶数为上进行正弦值的插入, 在奇数位置上进行余弦值的插入
注意点: 这里的位置编码器可以换成其他的函数形式, 或是在网络中进行动态学习.(了解即可)
编码器
部分
掩码张量
作用: 为了防止模型在解码器部分解码的时候提前利用未来的信息, 所以我们要现将未来的信息提前遮掩住, 这个使用需要用到掩码张量.
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/356247
推荐阅读
article
Nvidia
Jetson
AGX
Xavier
安装
Swin
-
Transformer
-Objec...
一. 安装Anaconda由于
Nvidia
Jetson
AGX
Xavier
是arrch64架构所以无法安装Anaco...
赞
踩
article
[
Transformer
]DN-
DETR
:Accelerate
DETR
Training
by I...
DN-
DETR
:引入query去噪训练用于加速
DETR
训练 AbstractSection I Introduction...
赞
踩
article
【
DETR
】1、
DETR
| 首个使用
Transformers
的
目标
检测器
_
detr
,用cnn提...
本文主要介绍
DETR
_
detr
,用cnn提取
图像
特征
detr
,用cnn提取
图像
特征
...
赞
踩
article
【
计算机
视觉】
Transformer
从
NLP
到 CV
_
3.cv
_
nlp
_
transformer
...
一、前言CV(
计算机
视觉)领域一直是引领机器学习的弄潮儿。近年来更是因为
Transformer
模型的横空出世而掀起了一...
赞
踩
article
计算机
视觉
"
新
"
范式:
Transformer
...
本文转自Smarter。自从
Transformer
出来以后,
Transformer
便开始在NLP领域一统江湖。而Tran...
赞
踩
article
Trans
for
mer
Meets Tracker: Exploiting Temporal Con...
Trans
for
mer
Meets Tracker: Exploiting Temporal Context
for
R...
赞
踩
article
Vision
Transformer
论文_vision
transformer
论文...
https://openreview.net/pdf?id=YicbFdNTTyAN IMAGE IS WORTH 16...
赞
踩
article
【开源】
Transformer
在
CV
领域全面开花:新出跟踪
、
分割
、
配准
等总结...
本文收录 5 月 以来值得关注的
Transformer
相关开源论文,包括基于
Transformer
的自监督学习方...
赞
踩
article
Transformer
:为什么要在
计算机
视觉
领域
使用
Transformer
?(一)_
视觉
transf...
一. self-attention1. 处理Sequence数据要处理一个Sequence,最常想到
的
就是
使用
RNN,它...
赞
踩
article
【
计算机
视觉 |
Transformer
】
arxiv
计算机
视觉关于
Transformer
的学术速递...
【
计算机
视觉 |
Transformer
】
arxiv
计算机
视觉关于
Transformer
的学术速递(9 月 18 日论...
赞
踩
article
Tr
an
sformers
in
S
in
gle
Object
Track
in
g An Experime...
本文主要介绍了基于Tr
an
sformer的单目标
跟踪
方法,对这些方法进行了分类、分析、评估和比较,并提出了未来的研究方向...
赞
踩
article
Transformer
估算
101...
本文主要介绍用于
估算
transformer 类模型计算量需求和内存需求的相关数学方法。引言其实,很多有关 transf...
赞
踩
article
Spatial-Te
m
poral Graph Trans
m>for
m>
m
er
m>for
m> Multiple Ob...
作者提出了一个时空图
m>trans
m>for
m>
m
er
m>(STGT)的方法,利用图Trans
m>for
m>
m
er去建模目标时间和空间的交互。 ...
赞
踩
article
Transformer
综述 &
Transformer
s in
Vision
: A
Survey
_...
来自自然语言任务的
Transformer
模型的惊人结果引起了视觉界的兴趣,他们研究了它们在计算机视觉问题中的应用。与长短...
赞
踩
article
学习
总结——
注意力
机制(
transformer
、
DETR
)_
detr
相比于
transformer
的区...
将Ci送入softmax函数中,得到概率Pi,将Pi与Vi相乘再相加得到VT,这个VT是Query的Value,这样就将...
赞
踩
article
[Video Trans
for
mer] X-
ViT
: Space-
time
Mixing Atten...
论文: https://arxiv.org/abs/2106.05968代码:Home | Adrian BulatGi...
赞
踩
article
【综述】
Transformers
in
Remote
Sens
in
g
: A
Survey
_sar i...
第一次系统地审查在遥感中基于变压器的最新进展。我们的调查涵盖了60多种最新的基于变压器的方法,用于遥感领域的不同遥感问题...
赞
踩
article
Pytorch
复现
Transformer
cssdn...
这表示对于每个批次中的32个样本的每个位置,模型都会输出一个10000维的向量,向量表示每个词汇的分数或概率。使用PyT...
赞
踩
article
配置
mmdet
来训练
Swin
-
Transformer
之一配置
环境
_
swin
-
transformer
...
文章介绍了在Ubuntu18.04
环境
下使用Pycharm和Anaconda创建虚拟
环境
,配置MMDetection以训...
赞
踩
article
LLM
推理优化探微 (2) :
Transformer
模型
KV
缓存
技术
详解_kv
缓存
...
假设有一批输入序列(input sequences),数量为 b 个,每个序列由 N 个生成的 tokens 和 t 个...
赞
踩
相关标签
transformer
深度学习
人工智能
计算机视觉
目标检测
机器学习
算法
自然语言处理
大数据
python