搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
盐析白兔
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【周末闲谈】人工智能之父“艾伦·麦席森·图灵”背后的故事_图灵机与ai
2
Android | 关于 OOM 的那些事_fd超限引起的oom
3
MapReduce单词计数实验(WordCount)_请用mapreduce的wordcount对以班级命名 的文本文件进行单词
4
2024最新版Java面试八股文大全(附各大厂面试真题及答案)_java2024八股
5
探索AI大模型学习的未来之路
6
解密人工智能:探索机器学习奥秘_探秘机器学习
7
基于Springboot的景区自助旅游系统的设计与实现_springboot景点管理系统
8
Git基础命令,持续增加..._switched to a new branch 'dev' branch 'dev' set up
9
机器学习中的评价指标——Precision、 Recall 、AP and F1 score_100.00% = 0.0 ap || score_threhold=0.5 : f1=1.00 ;
10
Flutter ListView保留滚动位置之优化之路_flutter列表更改某一条后页面刷新但保持滚动条位置
当前位置:
article
> 正文
AI人工智能进阶-BERT/Transformer/LSTM/RNN原理与代码_csdn bert lstm ner
作者:盐析白兔 | 2024-04-01 11:58:22
赞
踩
csdn bert lstm ner
所有的分享都来自于我个人笔记,经过我自己的思考总结实践积累下来的东西,希望能帮助到入门的朋友们。
RNN
传统神经网络(DNN)无法对时间序列建模,上一层神经元的输出只能传递给下一层神经元。而在循环神经网络(RNN)中,神经元的输出在下一时刻是可以传递给自身的,同时还输出一个藏隐层状态,给当前层在处理下一个样本时使用,
它可以看作是带自循环反馈的全连接神经网络。
很多任务的时序信息很重要,即一个样本中前后输入的信息是有关联的。样本出现时间顺序信息对语音识别、自然语言处理、视频识别等问题很重要,所以对于这类问题,可以使用 RNN 建模。分为<
单层RNN
>,<
多隐层RNN
>,<
双向循环神经网络
(bidirectional recurrent neural network,
Bi-RNN
)由两层循环神经网络组成,它们的输入相同,只是信息传递的方向不同>。
LSTM
是一种改进之后的RNN循环神经网络,可以解决 RNN 无法处理长距离的依赖的问题。
LSTM等门机制的结构一定程度上缓解了长期依赖的问题,但是对于特别
长期的依赖现象,LSTM依旧无能为力
。
Bidirectional RNN或
Bidirectional LSTM
:双向RNN或LSTM,可以同时使用前后序列(
考虑整个句子的信息)
,能更好地理解上下文环境并消除歧义。对于很多NLP的应用,可以获取完整的整个句子,那这个标准的双向RNN算法就很高效。
缺点:
需要完整数据的序列,你才能预测任意位置。比如语音识别系统中,这就要求你必须等待一个人说完整句话,才能做出识别,这样就有一个比较长的等待时间。
Transformer
这个模型主要有Google mind团队提出来的一种模型,可以说这边模型出来之后,NLP领域实现了大一统的趋势,这个模型是2017年发表的
attention all you need
中所提到的seq2seq模型。
BERT(Bidirectional Encoder Representations from Transformers)
就是
transformer衍生出来的预训练语言模型(无监督模型),是transformer的编码encode部分 ,输入一句话模型能输出字的embedding
。在过去我们使用word2vec,lstm等技术也逐渐被BERT模型所替代,其成为NLP主流框架,基本很多NLP很多任务都可以用BERT去解决。
BERT训练方法:一、使用MLM(
Masked Language Model
)方法。二、
NSP(Next Sentence Prediction)方法。
Transformer的提出解决了上面两个问题:
(1) 首先它使用了
Attention机制
,将序列中的任意两个位置之间的距离是缩小为一个常量;
(2) 其次它不是类似RNN的顺序结构,因此具有
更好的并行性,符合现有的GPU框架
。
主要区别与优势:
word2vec与
transformer
的区别
:word2vec需要训练得到词embedding,但是每一个词(或字)在不同的上下文是拥有不同的含义的,不同语境下的词含有不同的意思,因此如果基于固定的词的embedding进行语言模型构建是有很大缺陷的,而transformer可以利用上下文的关系来得到我们每一个词的向量。
LSTM
与
transformer
的区别
:
而说到LSTM等时序性的网络不能只能做到串行训练,即下一个词的训练需要等到上一个词训练完成才可以进行,同时也影响训练速度,相对而言BERT的预言模型则可以做到并行计算,这往往是因为其
自注意力机制
以及
位置嵌入
机制发挥的功能,在后面我们也会讲到。
RNN
与transformer
的区别:
RNN
会将它已经处理过的前面的所有单词/向量的表示与它正在处理的当前单词/向量结合起来。而自注意力机制会将所有相关单词的理解融入到我们正在处理的单词中。
一阶段:基础入门概念(无基础可懂)
【入门概念】
Encoder-Decoder 和 Seq2Seq
【入门概念】
Attention 机制
【入门概念】
Transformer
【入门概念】
解密 BERT
(什么是BERT)
【$基础介绍】
BERT大火却不懂Transformer?读这一篇就够了
【Bert模型评估】
BERT和Transformer到底学到了什么
【领域介绍】
Bert时代的创新:Bert在NLP各领域的应用进展 | 技术头条
二阶段:理论和源码/论文和资源/应用
Bert的Transformer低层学了表层特征,中间层学了句法特征,高层学了语义特征
【视频】
汉语自然语言处理-BERT的解读语言模型预训练
【视频】
李宏毅 Bert教程
【视频】
唐宇迪 Bert教程
【
论文
】
Attention is All You Need
【
论文
】
BERT: P
re-training of Deep Bidirectional Transformers for Language Understanding
【*RNN/LSTM和TF代码】
时间序列分析(4) RNN/LSTM
【英文资料】
The Illustrated Transformer
【发展与衍变】
从Transformer到BERT模型
【$已实践代码】
Pytorch实现: BERT
Pytorch实现: Transformer
【$原理和Torch代码】
聊聊 Transformer
【$原理和Torch代码】
深入理解Transformer及其源码
【$必看】
图解Transformer(完整版)
【$必看】
BERT(一) Transformer原理理解
【$必看】
BERT(二) BERT解读及应用
【$BERT代码】
一文彻底搞懂BERT实现
【$BERT TF代码】
NLP实战篇之bert源码阅读(optimization)
【$?】
BERT相关
问答
【$?】
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
【*
BERT github
】
Google BERT源码及模型
【*WWM中文模型 github】
Whole Word Masking (wwm)
【*Huggingface-transformers github】
Huggingface-transformers
【
应用
】
BERT-BiLSTM-CRF-NER
【
应用
】
bert-as-service
【
应用
】
bert4keras
input的初始化向量是什么?
,
每个词的词向量最初都是随机生成的,在神经网络训练的过程中,这些词向量会不断优化
解码过程是怎样的?
encode的输出K,V与 decode的Q(decode的输入得到mask attention)进行context attention计算。
反向传播是怎么做的?
预测结果和实际结果进行交叉熵损失函数计算,反向传播调整参数。
最终训练到底得到了什么?
模型,词向量参数(embedding),multi-heads参数(Multi-Heads Attention),全连接层(FeedForward)参数,layernorm层的参数.....
BERT和transformer实现流程的区别是什么?
BERT只用到了encode编码层和Pooler全连接层(最终获得词向量或fintune结果)。
fintune到底做了什么?固定住前面的参数,增加最后一层logit层,根据任务类型不一致
辅助阅读
【TF】TensorFlow
理解语言的 Transformer 模型
****
【TF】
预训练模型-BERT预训练源码解读笔记
【TF】
tensorflow 2.0+ 基于BERT模型的文本分类
【TF】
BERT for TensorFlow v2
【TF】
BERT代码阅读
【TF】
TensorFlow Serving部署Bert-BiLSTM+CRF(NER)模型并提供服务
【TF】
自定义 Estimator 实现(以BERT为例)
【TF应用】
tensorflow 2.0+ 基于BERT模型的文本分类
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/盐析白兔/article/detail/348834?site
推荐阅读
article
分类
预测
| Matlab实现CNN-
LSTM
-
Mutilhead
-
Attention
卷积
神经
网络
-...
分类
预测
| Matlab实现CNN-
LSTM
-
Mutilhead
-
Attention
卷积
神经
网络
-长短期记忆
网络
融合多...
赞
踩
article
Jetpack
Compose
入门到精通
学习指南
(初识、了解、深入、实战[附
Demo
])_jetpa...
前言在去年的Google/IO大会上,亮相了一个全新的 Android 原生 UI 开发框架-
Jetpack
Compo...
赞
踩
article
基于
FPGA
的电子
密码锁
设计论文(含视频代码仿真)_
t
t
p
://
t
.
csdn
.cn/
ox
t
cg
...
6.1总结与心得作为一种智能安全设备,电子
密码锁
在现代家居中越来越受到欢迎。针对这种需求,我们设计了一种基于
FPGA
的电...
赞
踩
article
01
背包问题_
01
背包问题
csdn
...
背包问题是动态规划的经典问题之一。根据物品限制条件的不同,背包问题可分为
01
背包、完全背包、多重背包、分组背包和混合背包...
赞
踩
article
超详细
VMware15
、
16
虚拟机
下载与安装_
vmvare
哪个版本好
csdn
...
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插...
赞
踩
article
HarmonyOS
开发
:
NEXT
版本
开发
新体验_
harmonyos
next
csdn
...
年前,公司团队接洽了鸿蒙方团队,确认了生态合作,于是开通了白名单权限,授权了新的IDE和相关文档的使用和查看,历经一月有...
赞
踩
article
adb
禁止鸿蒙系统
更新
_
adb
手机 停止
更新
csdn
...
工具存在百度云。
_
adb
手机 停止
更新
csdn
adb
手机 停止
更新
csdn
...
赞
踩
article
Mac
OS X 10.9 配置
jdk1.7
_
site
:m.
blog
.
csdn
.
net
...
--首先,我们下载个eclipse,或者任何java运行程序,_
site
:m.
blog
.
csdn
.
net
site
:m.b...
赞
踩
article
图解
LSTM
_画出
lstm
网络
的
基本结构...
LSTM
概述RNN给神经
网络
加入了处理时间
的
能力,而传统
的
RNN会面临梯度消失(爆炸)
的
问题RNN vs
LSTM
: V...
赞
踩
article
LSTM
详细公式
与
图解_
lstm
的
公式...
Gated Recurrent UnitGRU 和
LSTM
都可以很好
的
解决 RNN 中
的
梯度消失问题,而 GRU
与
...
赞
踩
article
LSTM
原理_
lstm
原理...
LSTM
是一种改进的循环神经网络,解决了RNN无法处理长距离依赖的问题,目前很流行。文章介绍了
LSTM
的原理和相关理论。...
赞
踩
article
LSTM
(
长短期
记忆
网络)的设计灵感和数学
表达式
_
lstm
模型
表达式
...
LSTM
(
长短期
记忆
网络)的设计灵感来源于传统的人工神经网络在处理序列数据时存在的问题,特别是梯度消失和梯度爆炸的问题。...
赞
踩
article
深度
学习
基础技术
分析
6:
LSTM
(含
代码
分析
)_
lstm
结构
代码
...
1. 模型图示有好几个门。2. 相关技术
LSTM
指明了是长处理时序列3.
代码
分析
程序
代码
见: https://git...
赞
踩
article
循环
神经网络
的变体
模型
-
LSTM
、
GRU
_
lstm
最新变体
模型
...
简单介绍相关
循环
神经网络
的变体
模型
-
LSTM
和
GRU
_
lstm
最新变体
模型
lstm
最新变体
模型
...
赞
踩
article
数字
笔记
-
Notion
使用教程_
notion
wrap
code
csdn
...
数字
笔记
Notion
使用教程。_
notion
wrap
code
csdn
notion
wrap
code
csdn
...
赞
踩
article
代码编辑软件:
Sublime
Text
4 for
Mac
(4.0(4112))_
sublime
t...
提起
Sublime
Text
4 for
Mac
(代码编辑软件),相信大家都不会陌生,
Sublime
Text
Mac
破解...
赞
踩
article
Nvidia
Jetson
AGX
Xavier
安装
Swin
-
Transformer
-Objec...
一. 安装Anaconda由于
Nvidia
Jetson
AGX
Xavier
是arrch64架构所以无法安装Anaco...
赞
踩
article
人工智能
:从
图灵
到未来
_
图灵
与
人工智能
csdn
...
关于
人工智能
的一次小分享
_
图灵
与
人工智能
csdn
图灵
与
人工智能
csdn
前几天,有报道**要...
赞
踩
article
基于
CNN
、
GRU
、
Inception
、
LSTM
、
随机森林和SVM的轴承
故障诊断
...
基于
CNN
、
GRU
、
Inception
、
LSTM
、
随机森林和SVM的轴承
故障诊断
基于
CNN
、
GRU
、
Inception
、
...
赞
踩
article
亮
数据
代理
IP
轻松解决
爬虫
数据
采集痛点_
亮
数据
无线
代理
csdn
...
亮
数据
代理
IP
轻松解决
爬虫
数据
采集痛点_
亮
数据
无线
代理
csdn
亮
数据
无线
代理
csdn
...
赞
踩
相关标签
CNN-LSTM
Mutilhead
Attention
卷积神经网络-长短期记忆网络
多头注意力机制
多特征分类预测
android
程序人生
移动开发
android jetpack
Compose
fpga开发
算法
linux
ubuntu
maven
harmonyos
鸿蒙
ios
NEXT版本
LSTM
deeplearning
rnn
深度学习