搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家自动化
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
vrrp小实验_s31与s32实现vrrp负载均衡;s31为vlan10和vlan30的根桥和主网关,s32为vla
2
Linux 系统中 NumPy (Python 2) 编程环境
3
rikibot机器人调参
4
神器来袭,手把手教你使用 Milvus_cli
5
CentOS 6&7 升级GCC版本(GCC4.8,GCC4.9,GCC5.3,GCC6.2)_centos7升级gcc4.8.5到gcc4.9.0
6
基于matlab的相干信号的doa 估计,基于空间平滑MUSIC算法的相干信号DOA估计(1)
7
Vue学习笔记(二)_const actiondialogref = ref
8
在线少儿编程系统源码带本地搭建教程_少儿编程源码
9
脑启发遥感解译:一个全面的调查_john hopfield在1983年提出一种用于联想记忆的神经网络(hopfield网络),在旅行
10
Stable Diffusion WebUI安装合成面部说话插件SadTalker_webui安装sadtalker
当前位置:
article
> 正文
Transformer的前世今生 day01(预训练、统计语言模型)
作者:我家自动化 | 2024-03-30 06:06:16
赞
踩
Transformer的前世今生 day01(预训练、统计语言模型)
预训练
在相似任务中,由于神经网络模型的浅层是通用的,如下图:
所以当我们的数据集不够大,不能产生性能良好的模型时,可以尝试让模型B在用模型A的浅层基础上,深层的部分自己生成参数,减小数据集的压力
使用模型A的浅层来实现任务B,由两种方式:
冻结(frozen):浅层参数不变
微调(Fine-Tuning):浅层参数会跟着任务B的训练而改变
总结:一个任务A,一个任务B,两者极其相似,任务A已经通过大数据集训练出一个模型A,使用模型A的浅层参数去训练任务B,得到模型B。
使用的特性为:CNN浅层参数通用
任务B也可以是大数据,我们仍可以使用模型A的浅层参数,这样在训练模型B的时候,能节省训练时间,节省成本
统计语言模型
语言模型:通常是通过模型来完成两个任务
判断这两句话,哪一个的概率大:P(“判断这个词的词性”),P("判断这个词的磁性“)
选择在这句话的后面填什么词比较好:“判断这个词的__”
统计语言模型:用统计的方法解决以上两个问题
统计的方法:条件概率的链式法则
解决第一个问题:
首先对一句话进行分词操作,如:“判断”,“这个”,“词”,“的”,“词性”
那求这句话出现的概率就变成了,求这些词按顺序出现的概率,即W1出现的概率 * (W1出现时,W2出现的概率) *…
公式如下:
解决第二个问题:
首先,还是对这句话进行分词操作
那求划线处填什么,就变成了求词库中的所有词,哪一个放在这个句子中的概率最大,即求P(W_next | “判断”,“这个”,“词”,“的”)的最大值,即 (Wnext,判断,这个,词,的)出现的个数除以(判断,这个,词,的)出现的个数,公式如下:
词库:就像一个新华字典,把所有词都装进了词库(集合V)中,例如:
n元统计语言模型
统计语言模型的缺陷:如果n特别大,即(W1,W2,W3…Wn)有很多,那么我们算条件概率的计算量很大
n元统计语言模型:如果可以把n个词在不影响结果的情况下,改为取更少量的词,这样可以减小计算量,如下:
实际计算步骤:
假设词库如下:
"判断单词的词性” "磁性很强的磁铁” ”北京的词性是名词"
1
2
3
那P(词性 | 的)的结果如下:
平滑策略
如果在词库V中求,不存在的词出现的概率,即选词填空问题中,无法从词典中选择一个词填入,那容易出现
0 0 \frac{0}{0}
0
0
的情况,如P(策略 | 平滑)
于是为了避免这种情况,会在分子和分母中都加入一个非0正数,如下:
总结:
语言模型统计两个问题:计算一句话的概率,计算下一个词可能是什么
统计语言模型:统计的方法去解决语言模型的问题(条件概率)
n元统计语言模型:只取n个词
平滑策略:避免出现
0 0 \frac{0}{0}
0
0
的情况
参考文献
03 什么是预训练(Transformer 前奏)
04 统计语言模型(n元语言模型)
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家自动化/article/detail/339381
推荐阅读
article
论文阅读——
Rein
_
rein
transformer
...
_
rein
transformer
rein
transformer
Stronger, Fewe...
赞
踩
article
Day01
-
git
_(
head
->
day01
,
origin
/
day02
,
origin
/d...
git
—— 分布式版本控制软件1.
git
的安装1)windows安装官网地址: https://
git
-scm.co...
赞
踩
article
AI:
Transformer
架构
简介及实践
_
ai
transformer
...
其中这些给出的提示就可以看作是key,而整个的文本信息就相当于是query,value的含义则更抽象,可以比作你看到这段...
赞
踩
article
释放
生成式
AI 中
Transformer
的创造力_
from
transformers
impo...
在不断发展的人工智能领域,近年来有一个名字脱颖而出:
Transformer
。这些强大的模型改变了我们在人工智能中处理生...
赞
踩
article
AI
大
模型
应用
入门实战与进阶:深入理解
Transformer
架构
_
大
数据ai
transformer
...
Transformer
是Google在2017年提出的一种新型神经网络
架构
1,它被广泛
应用
于自然语言处理(NLP)领域,...
赞
踩
article
Transformer
架构
逐层
功能介绍
和
详细解释
_
逐层
特征
外化...
多年来,深度学习一直在不断发展。深度学习实践高度强调使用大量参数来提取有关我们正在处理的数据集的有用信息。通过拥有大量参...
赞
踩
article
AI
Transformer
:
最新进展
及其应用场景解析
_
transformer
最新进展
...
作者:禅与计算机程序设计艺术 1.简介随着人工智能(
AI
)技术的飞速发展,深度学习(DL)和Transforme...
赞
踩
article
AI
大
模型
应用入门实战与进阶:4.
Transformer
模型
的
实战与进阶_大
模型
transfor...
1.背景介绍
Transformer
模型
是一种深度学习
模型
,由Google
的
AI
研究团队在2017年发表
的
论文《Atten...
赞
踩
article
人工智能
大
模型
原理
与应用实战:从
Transformer
到
Vision
Transformer
...
人工智能
(Artificial Intelligence, AI)是计算机科学的一个分支,研究如何让计算机模拟人类智能。...
赞
踩
article
[论文阅读]
CenterFormer
——基于
center
的三维目标检测Trans
for
mer_cen...
本文介绍了一种基于
center
的三维目标检测Trans
for
mer——
CenterFormer
。该方法在处理LiDAR点...
赞
踩
article
【
Transformer
】
基于
Transformer
的
目标
检测
算法
综述_
transformer
目标
检...
基于
Transformer
的
目标
检测
算法
的研究综述_
transformer
目标
检测
综述
transformer
目标
检测
综述...
赞
踩
article
单目标追踪——【Trans
for
mer】
Learning
Spatio
-
Temporal
Trans...
这篇文章提出了一个端到端的Trans
for
mer架构,一共有两个具体实现的网络结构——Baseline网络【仅考虑空间特...
赞
踩
article
(
DSTT
)
Decoupled
Spatial-
Temporal
Trans
for
mer
for
V...
Abstract Video inpainting aims to fill the given spatiotempo...
赞
踩
article
ICCV
2021
论文
汇总!
Vision
Transformer
...
作者丨AI算法与图像处理@知乎来源丨https://zhuanlan.zhihu.com/p/395764136编辑丨计...
赞
踩
article
《论文阅读》
PCT
:
Point
Cloud
Transformer
...
留个笔记自用
PCT
:
Point
Cloud
Transformer
做什么点云的概念:点云是在同一空间参考系下表达目标空...
赞
踩
article
【3D目标
分类
】
PCT
:
Point
Cloud
Transformer
...
文章目录前言摘要1.介绍2.相关工作3.
Transformer
for
Point
Cloud
Representati...
赞
踩
article
基于深度
学习
方法的
点云
算法4——
PCT
:
Point
Cloud
Transformer
(
点云
分类
分...
不规则域和缺乏有序性使得设计用于
点云
处理的深层神经网络具有挑战性。提出了一种新的
点云
学习
框架
Point
Cloud
Tr...
赞
踩
article
「论文阅读」
PCT
:
Point
Cloud
Transformer
...
目录
PCT
的点云处理编码器(Encoder):物体分类语义分割法线估计Naive
PCT
S
PCT
全
PCT
受Transfo...
赞
踩
article
论文解读
PCT
:
Point
Cloud
Transformer
(用于
点云
处理
的Transforme...
最近几年transformer越来越火,在NLP、CV等领域都取得了很大的成功。这篇文章作者利用了transformer...
赞
踩
article
三维目标检测
---
PointCloudTransformer
论文解读
_
point
cloud
tra...
代码链接paper链接论文总结本文提出了一种在适用于点云的Transformer结构。根据点云数据的特点进一步改善了Tr...
赞
踩
相关标签
人工智能
深度学习
机器学习
git
transformer
注意力机制
架构
原理
计算
大数据
语言模型
AI
大模型
LLM
Java
Python
架构设计
Agent
RPA
神经网络
自然语言处理