搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
2015年认证杯SPSSPRO杯数学建模A题(第二阶段)绳结全过程文档及程序
2
sklearn.tree.DecisionTreeClassifier()函数解析_decisiontreeclassifier函数
3
python PyQt5的安装_pyqt5 安装
4
工业制造中的大数据分析应用_工业大数据分析方案-美林数据_大数据分析在工业应用
5
Resource punkt not found_tensorflow resource punkt not found
6
更多代码阅读及测试(词典操作)_user_dict.txt
7
在Blender中使用代码控制人物模型的头部姿态 - 前置知识_头部姿态 控制
8
杨强 : 迁移学习——人工智能的最后一公里
9
【多模态】17、CORA | 将 CLIP 使用到开集目标检测_clip 目标检测
10
机器学习 主成分分析(Principal Component Analysis)_机器学习主成分分析
当前位置:
article
> 正文
AI人工智能进阶-BERT/Transformer/LSTM/RNN原理与代码
作者:我家小花儿 | 2024-04-02 16:02:38
赞
踩
AI人工智能进阶-BERT/Transformer/LSTM/RNN原理与代码
所有的分享都来自于我个人笔记,经过我自己的思考总结实践积累下来的东西,希望能帮助到入门的朋友们。
RNN
传统神经网络(DNN)无法对时间序列建模,上一层神经元的输出只能传递给下一层神经元。而在循环神经网络(RNN)中,神经元的输出在下一时刻是可以传递给自身的,同时还输出一个藏隐层状态,给当前层在处理下一个样本时使用,
它可以看作是带自循环反馈的全连接神经网络。
很多任务的时序信息很重要,即一个样本中前后输入的信息是有关联的。样本出现时间顺序信息对语音识别、自然语言处理、视频识别等问题很重要,所以对于这类问题,可以使用 RNN 建模。分为<
单层RNN
>,<
多隐层RNN
>,<
双向循环神经网络
(bidirectional recurrent neural network,
Bi-RNN
)由两层循环神经网络组成,它们的输入相同,只是信息传递的方向不同>。
LSTM
是一种改进之后的RNN循环神经网络,可以解决 RNN 无法处理长距离的依赖的问题。
LSTM等门机制的结构一定程度上缓解了长期依赖的问题,但是对于特别
长期的依赖现象,LSTM依旧无能为力
。
Bidirectional RNN或
Bidirectional LSTM
:双向RNN或LSTM,可以同时使用前后序列(
考虑整个句子的信息)
,能更好地理解上下文环境并消除歧义。对于很多NLP的应用,可以获取完整的整个句子,那这个标准的双向RNN算法就很高效。
缺点:
需要完整数据的序列,你才能预测任意位置。比如语音识别系统中,这就要求你必须等待一个人说完整句话,才能做出识别,这样就有一个比较长的等待时间。
Transformer
这个模型主要有Google mind团队提出来的一种模型,可以说这边模型出来之后,NLP领域实现了大一统的趋势,这个模型是2017年发表的
attention all you need
中所提到的seq2seq模型。
BERT(Bidirectional Encoder Representations from Transformers)
就是
transformer衍生出来的预训练语言模型(无监督模型),是transformer的编码encode部分 ,输入一句话模型能输出字的embedding
。在过去我们使用word2vec,lstm等技术也逐渐被BERT模型所替代,其成为NLP主流框架,基本很多NLP很多任务都可以用BERT去解决。
BERT训练方法:一、使用MLM(
Masked Language Model
)方法。二、
NSP(Next Sentence Prediction)方法。
Transformer的提出解决了上面两个问题:
(1) 首先它使用了
Attention机制
,将序列中的任意两个位置之间的距离是缩小为一个常量;
(2) 其次它不是类似RNN的顺序结构,因此具有
更好的并行性,符合现有的GPU框架
。
主要区别与优势:
word2vec与
transformer
的区别
:word2vec需要训练得到词embedding,但是每一个词(或字)在不同的上下文是拥有不同的含义的,不同语境下的词含有不同的意思,因此如果基于固定的词的embedding进行语言模型构建是有很大缺陷的,而transformer可以利用上下文的关系来得到我们每一个词的向量。
LSTM
与
transformer
的区别
:
而说到LSTM等时序性的网络不能只能做到串行训练,即下一个词的训练需要等到上一个词训练完成才可以进行,同时也影响训练速度,相对而言BERT的预言模型则可以做到并行计算,这往往是因为其
自注意力机制
以及
位置嵌入
机制发挥的功能,在后面我们也会讲到。
RNN
与transformer
的区别:
RNN
会将它已经处理过的前面的所有单词/向量的表示与它正在处理的当前单词/向量结合起来。而自注意力机制会将所有相关单词的理解融入到我们正在处理的单词中。
一阶段:基础入门概念(无基础可懂)
【入门概念】
Encoder-Decoder 和 Seq2Seq
【入门概念】
Attention 机制
【入门概念】
Transformer
【入门概念】
解密 BERT
(什么是BERT)
【$基础介绍】
BERT大火却不懂Transformer?读这一篇就够了
【Bert模型评估】
BERT和Transformer到底学到了什么
【领域介绍】
Bert时代的创新:Bert在NLP各领域的应用进展 | 技术头条
二阶段:理论和源码/论文和资源/应用
Bert的Transformer低层学了表层特征,中间层学了句法特征,高层学了语义特征
【视频】
汉语自然语言处理-BERT的解读语言模型预训练
【视频】
李宏毅 Bert教程
【视频】
唐宇迪 Bert教程
【
论文
】
Attention is All You Need
【
论文
】
BERT: P
re-training of Deep Bidirectional Transformers for Language Understanding
【*RNN/LSTM和TF代码】
时间序列分析(4) RNN/LSTM
【英文资料】
The Illustrated Transformer
【发展与衍变】
从Transformer到BERT模型
【$已实践代码】
Pytorch实现: BERT
Pytorch实现: Transformer
【$原理和Torch代码】
聊聊 Transformer
【$原理和Torch代码】
深入理解Transformer及其源码
【$必看】
图解Transformer(完整版)
【$必看】
BERT(一) Transformer原理理解
【$必看】
BERT(二) BERT解读及应用
【$BERT代码】
一文彻底搞懂BERT实现
【$BERT TF代码】
NLP实战篇之bert源码阅读(optimization)
【$?】
BERT相关
问答
【$?】
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
【*
BERT github
】
Google BERT源码及模型
【*WWM中文模型 github】
Whole Word Masking (wwm)
【*Huggingface-transformers github】
Huggingface-transformers
【
应用
】
BERT-BiLSTM-CRF-NER
【
应用
】
bert-as-service
【
应用
】
bert4keras
input的初始化向量是什么?
,
每个词的词向量最初都是随机生成的,在神经网络训练的过程中,这些词向量会不断优化
解码过程是怎样的?
encode的输出K,V与 decode的Q(decode的输入得到mask attention)进行context attention计算。
反向传播是怎么做的?
预测结果和实际结果进行交叉熵损失函数计算,反向传播调整参数。
最终训练到底得到了什么?
模型,词向量参数(embedding),multi-heads参数(Multi-Heads Attention),全连接层(FeedForward)参数,layernorm层的参数.....
BERT和transformer实现流程的区别是什么?
BERT只用到了encode编码层和Pooler全连接层(最终获得词向量或fintune结果)。
fintune到底做了什么?固定住前面的参数,增加最后一层logit层,根据任务类型不一致
辅助阅读
【TF】TensorFlow
理解语言的 Transformer 模型
****
【TF】
预训练模型-BERT预训练源码解读笔记
【TF】
tensorflow 2.0+ 基于BERT模型的文本分类
【TF】
BERT for TensorFlow v2
【TF】
BERT代码阅读
【TF】
TensorFlow Serving部署Bert-BiLSTM+CRF(NER)模型并提供服务
【TF】
自定义 Estimator 实现(以BERT为例)
【TF应用】
tensorflow 2.0+ 基于BERT模型的文本分类
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家小花儿/article/detail/352971
推荐阅读
article
八大
技术
趋势
案例
(
人工智能
&物
联网
)...
随着
人工智能
、大数据、云计算、区块链、虚拟现实、增强现实、量子计算等
技术
的不断发展,未来世界将会更加智能、互联、安全、高...
赞
踩
article
图解
LSTM
_画出
lstm
网络
的
基本结构...
LSTM
概述RNN给神经
网络
加入了处理时间
的
能力,而传统
的
RNN会面临梯度消失(爆炸)
的
问题RNN vs
LSTM
: V...
赞
踩
article
LSTM
详细公式
与
图解_
lstm
的
公式...
Gated Recurrent UnitGRU 和
LSTM
都可以很好
的
解决 RNN 中
的
梯度消失问题,而 GRU
与
...
赞
踩
article
LSTM
原理_
lstm
原理...
LSTM
是一种改进的循环神经网络,解决了RNN无法处理长距离依赖的问题,目前很流行。文章介绍了
LSTM
的原理和相关理论。...
赞
踩
article
LSTM
(
长短期
记忆
网络)的设计灵感和数学
表达式
_
lstm
模型
表达式
...
LSTM
(
长短期
记忆
网络)的设计灵感来源于传统的人工神经网络在处理序列数据时存在的问题,特别是梯度消失和梯度爆炸的问题。...
赞
踩
article
深度
学习
基础技术
分析
6:
LSTM
(含
代码
分析
)_
lstm
结构
代码
...
1. 模型图示有好几个门。2. 相关技术
LSTM
指明了是长处理时序列3.
代码
分析
程序
代码
见: https://git...
赞
踩
article
循环
神经网络
的变体
模型
-
LSTM
、
GRU
_
lstm
最新变体
模型
...
简单介绍相关
循环
神经网络
的变体
模型
-
LSTM
和
GRU
_
lstm
最新变体
模型
lstm
最新变体
模型
...
赞
踩
article
ewt
分解模式
matlab
算法
如何实现,
EWT
- 源码下载|数值
算法
/
人工智能
|
matlab
例程|...
EWT
...
\
EWT
...
\
...
\1D
...
\
...
\..\
EWT
1D.m
...
\
...
\..\
EWT
_Instant...
赞
踩
article
Nvidia
Jetson
AGX
Xavier
安装
Swin
-
Transformer
-Objec...
一. 安装Anaconda由于
Nvidia
Jetson
AGX
Xavier
是arrch64架构所以无法安装Anaco...
赞
踩
article
五元
组
评价
算法
实现简易
五子棋
【
人工智能
】_
五子棋
五元
组
...
五子棋
游戏
算法
设计,方法不限。 以两人为一
组
,分为甲方和乙方对弈。各自设计自己的
算法
: 针对对方下的每一步骤棋落子,由...
赞
踩
article
人工智能
:从
图灵
到未来
_
图灵
与
人工智能
csdn
...
关于
人工智能
的一次小分享
_
图灵
与
人工智能
csdn
图灵
与
人工智能
csdn
前几天,有报道**要...
赞
踩
article
人工
智能
、
机器
学习、深度学习、
神经网络
_
机器
学习、人工
神经网络
、符号
智能
、进化计算、群
智能
、行为
智能
...
在经历了蛮荒的PC互联网时代,混战的移动互联网时代,到现今最火的
人工
智能
时代。大数据、云计算、
机器
学习的技术应用,已经使...
赞
踩
article
人工智能
的
三层
基本
架构
_“
人工智能
”如何“
深度
学习
”?...
深度
学习
技术是
人工智能
(AI)
的
一个重要实现方法,在语音识别、图像识别、自然语言处理和搜索广告预估等领域
的
应用都取得了惊...
赞
踩
article
基于
CNN
、
GRU
、
Inception
、
LSTM
、
随机森林和SVM的轴承
故障诊断
...
基于
CNN
、
GRU
、
Inception
、
LSTM
、
随机森林和SVM的轴承
故障诊断
基于
CNN
、
GRU
、
Inception
、
...
赞
踩
article
给这个
模型
加一层
注意力
机制
model
=
Sequential
()
model
.add(
LSTM
(5...
这个
模型
是一个序列到序列的
模型
,其中第一层是一个
LSTM
层,输入形状为(2, 1),激活函数为'
relu
'。第二层是一个...
赞
踩
article
网络科技
大趋势:
人工智能
、
区块
链
和
5G
的结合将
带来
哪些变革?_5g
人工智能
区块
链
是什么...
通过
5G
网络,医生可以实现远程诊断
、
手术指导等操作,同时可以实现医疗设备的智能化管理和数据的实时监测,进一步提高医疗服务...
赞
踩
article
[
人工智能
-
深度
学习
-18]:
神经网络
基础 - 模型训练 - 监督式
学习
常见
学习
材料:训练
数据
集
、验...
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客本文网址:目录第1章
数据
集
概...
赞
踩
article
[
Transformer
]DN-
DETR
:Accelerate
DETR
Training
by I...
DN-
DETR
:引入query去噪训练用于加速
DETR
训练 AbstractSection I Introduction...
赞
踩
article
【
计算机
视觉】
Transformer
从
NLP
到 CV
_
3.cv
_
nlp
_
transformer
...
一、前言CV(
计算机
视觉)领域一直是引领机器学习的弄潮儿。近年来更是因为
Transformer
模型的横空出世而掀起了一...
赞
踩
article
计算机
视觉
"
新
"
范式:
Transformer
...
本文转自Smarter。自从
Transformer
出来以后,
Transformer
便开始在NLP领域一统江湖。而Tran...
赞
踩
相关标签
人工智能
物联网
LSTM
deeplearning
rnn
深度学习
lstm
循环神经网络
神经网络
python
机器学习
gru
ewt分解模式matlab算法如何实现
transformer
五子棋
五元组评价算法
C++
计算机视觉