搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
菜鸟追梦旅行
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
用GVIM/VIM写Verilog——VIM配置分享_gvim svstemverilog 插件
2
深度学习之RNN循环神经网络(理论+图解+Python代码部分)
3
数据流分析(一)_数据流分析怎么写
4
python 之弗洛伊德算法_floyd-warshall算法python代码
5
FPGA 静态时序分析与约束(2)_quartus unconstrained path
6
微信小程序开发与应用——字体样式设置_微信小程序style属性
7
多无人机对组网雷达的协同干扰问题 数学建模
8
Python实现mysql数据库验证_python3 构建一个源和目的都是mysql的数据校验程序
9
Win10安装安卓模拟器入坑记_exagear win10
10
岛屿数量(dfs)
当前位置:
article
> 正文
Statistical language model 统计语言模型_统计语言模型(statistical language model, slm).
作者:菜鸟追梦旅行 | 2024-05-03 09:09:46
赞
踩
统计语言模型(statistical language model, slm).
学习笔记来自斯坦福公开课的自然语言处理(
https://class.coursera.org/nlp/
),以其中讲义为主,加入自己的学习理解,以加深学习印象。
内容提纲:
1. N-GRAM介绍
2. 参数估计
3. 语言模型的评价
4. 数据稀疏问题
5. 平滑方法
N-GRAM介绍
现在很多的应用中,需要计算一个句子的概率,一个句子是否合理,就看看它的可能性大小,这里可能性的大小就用概率来衡量。比如下面几个例子:
在机器翻译中:
P(high winds tonite) > P(large winds tonite)
拼写检查中:
比如这一句话:The office is about fiIeen
minuets
from my house
显然 P(about fiIeen minutes from) > P(about fiIeen minuets from)
语音识别中:
比如I saw a van 和eyes awe of an听上去差不多,但是P(I saw a van) >> P(eyes awe of an)
上面的几个例子中都需要计算一个句子的概率,以作为判断其是否合理的依据。下面将上述的内容形式化描述。
我们需要计算一个句子或序列W的概率: P(W) = P(w 1 ,w 2 ,w 3 ,w 4 ,w 5 …w n )
其中我们也需要计算一个相关的任务,比如P(w 5 |w 1 ,w 2 ,w 3 ,w 4 ),表示w 1 w 2 w 3 w 4 后面是w 5的概率,即下一个词的概率。
像这样计算P(W)或者P(w n |w 1 ,w 2 …w n-‐1 ) 的模型叫做语言模型( language model简称LM)。
那么如何计算P(W)呢?用概率的链式规则,链式规则常常用来评估随机变量的联合概率,链式规则如下:
将上面的链式规则计算P(W)可以写作如下:
按照链式规则计算方式,举例如下:
P(“its water is so transparent”) = P(its) × P(water|its) × P(is|its water) × P(so|its water is) × P(transparent|its water is so)
那么下面的问题是如何计算上面每一个概率,比如 P(transparent|its water is so),一种比较直观的计算就是计数然后用除法:
事实上不能用这种方式去计算条件概率,原因有两个:
1.直接这样计算会导致参数空间过大,一个语言模型的参数就是所有的这些条件概率,试想按上面方式计算P(w 5 |w 1 ,w 2 ,w 3 ,w 4 ),这里w i都有一个词典大小取值的可能,记作|V|,则该模型的参数个数是|V|^5,而且这还不包含P(w 4 | w1, w2, w3)的个数,可以看到这样去计算条件概率会使语言模型参数个数过多而无法实用。
2.
数据稀疏严重,我的理解是像上面那样计数计算,比如计数分子its water is so transparen,在我们所能见的文本中出现的次数是很小的,这样计算的结果是过多的条件概率会等于0,因为我们根本没有看到足够的文本来统计!
上面的计算方式是通过马尔科夫假设进行简化的,马儿可夫假设是指假设第wi个词语只与它前面的k个词语相关,这样我们就得到前面的条件概率计算简化如下:
这样我们的P(W)计算简化如下:
当k = 0时,这个时候对应的模型叫做一元模型(Unigram model),即wi与它前面的0个词相关,即wi不与任何词相关,每一个词都是相互独立的,P(W)计算如下:
当k = 1时,对应的模型叫做二元模型(Bigram model),此时wi与它前面一个词相关,P(W)计算如下:
同样的,我们可以让k = 2,叫做 trigrams,4-grams,5-grams,当k = N - 1,模型成为n元模型,即N-grams。
总的来说,N-grams有一些不足,因为语言
存在一个
长距离依赖关系,比如考虑下面的句子:
“The computer which I had just put into the machine room on the fifth floor crashed.”
假如我们要预测最后一个词语crashed出现的概率,如果采用二元模型,那么crashed与floor实际关联可能性应该非常小,相反的,这句子的主语computer与crashed的相关性很大,但是n-
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/528832
推荐阅读
article
AI绘画爆火背后
:
扩散
模型
(
Diffusion
Model
)原理
综述
...
来源:知乎—大仲马地址:https
:
//zhuanlan.zhihu.com/p/562389931本
综述
(Diffus...
赞
踩
article
diffusion
model
(七)
diffusion
model
是一个
zero
-
shot
分类...
P
a
per: Your Diffusion Model is Secretly
a
Zero-Shot Cl
a
ssifi...
赞
踩
article
Db.
session
.
query
vs
Model
.
query
...
文章目录前言相同之处不同之处总结参考资料前言之间在使用中发现用flask-sqlalchemy 有两种查询的方法 一种是...
赞
踩
article
SQLAlchemy
中
Model
.
query
和
session
.
query
(
Model
)
的
区别...
今天在看以前
的
代码
的
时候发现了一个问题,就是在进行数据查询
的
时候有
的
地方用到
的
写法不一致,虽然处理
的
结果都没有问题,但是...
赞
踩
article
Build
a
Large
Language Model (From Scratch)
从头开始
构建...
LLM需要将文本数据转换为数值向量,称为嵌入,因为它们无法处理原始文本。嵌入将离散数据(如单词或图像)转换为连续向量空间...
赞
踩
article
GLM
(一)
--
论文翻译:《
GLM
:
General
Language
Model
Pretra...
总之,我们得出结论,
GLM
能够有效地在自然语言理解和生成任务中共享模型参数,并且比独立的BERT、编码-解码器或GPT模...
赞
踩
article
DBeaver
执行.
sql
脚本报错:
ERROR
1064 (42000) at
line
1_org...
原因是在.
sql
的脚本里面,每一块创建表的代码结束时候没有加上结束分节符号。需要在CREATE TABLE结束后加上。,...
赞
踩
article
有趣的大
模型
之我见
|
Llama
AI
Model
...
Llama
3 8B 在至少九个基准测试中击败了其他开放
模型
,例如 Mistral 的 Mistral 7B 和 Goo...
赞
踩
article
A
number
of problems
from
coded in
ARM
assembly
l...
http://www.fourtheye.org/cgi-bin/
language
.pl?
language
=asmNOT...
赞
踩
article
AI
大
模型
探索之路-
训练
篇3:
大
语言
模型
全景解读_统计
语言
模型
(
statistical
langua...
大
规模
语言
模型
(Large Language Models,LLM),也称
大
语言
模型
或
大
型
语言
模型
,是一种由包含数百亿以...
赞
踩
article
【论文笔记】Training
language
models
to
follow
instructi...
GPT-3.5 技术报告 A部分【论文笔记】Training
language
models
to
follow
ins...
赞
踩
article
[
LangChain
核心模块]
模型
的输入和输出->
Language
models
_
on
_
llm
_
ne...
语言
模型
(
Language
models
)
LangChain
提供了两种类型
模型
的接口和集成:LLMs和 Chat ...
赞
踩
article
The Era of 1-
bit
LLMs
: All
Large
Language
Models
a...
近期的研究,例如BitNet,正在为1-
bit
大型语言模型(
LLMs
)的新时代铺平道路。在本工作中,我们介绍了一个1-b...
赞
踩
article
Large
Language
Models
for
Test-Free Fault Localiza...
软件错误定位(FL) 旨在自动定位有缺陷的代码行,这是许多手动和自动调试任务中的关键第一步。以前的 FL 技术假设提供输...
赞
踩
article
LLM -
model
batch
generate
生成文本_
repetition
_
penalty
...
LLM
model
generate
batch
批量生成与参数详解。_
repetition
_
penalty
repeti...
赞
踩
article
【
自然
语言
处理】【大
模型
】
PaLM
:基于
Pathways
的大
语言
模型
_pathways langua...
近些年,超大型神经网络在
语言
理解和生成的广泛任务上实现了令人惊讶的效果。这些
模型
通常是在大规模文本语料上,使用填充式...
赞
踩
article
NLP | 自然
语言
处理
-
语言
模型
(
Language
Modeling
)...
语音识别”这样的场景,机器通过一定的算法将语音转换为文字,显然这个过程是及其容易出错的。例如,用户发音“Recognit...
赞
踩
article
【AI视野·今日
CV
计算机
视觉
论文速览 第
25
3期】Mon,
25
Sep 2023_lmc: l...
AI视野·今日CS.
CV
计算机
视觉
论文速览Mon,
25
Sep 2023Totally 64 paperslmc: ...
赞
踩
article
Transformer
机器翻译
模型
原理(The
transformer
model
: A neura...
作者:禅与计算机程序设计艺术 1.简介在过去几年中,深度学习技术取得了突破性的进步。
Transformer
模型
就...
赞
踩
article
sqlalchemy
根据
数据库
的
model
类生成
schema
s类_
sqlalchemy
model
...
python
根据
数据库
表创建
schema
类_
sqlalchemy
model
设置
schema
sqlalchemy
mo...
赞
踩
相关标签
AI作画
人工智能
机器学习
深度学习
python
diffusion model
stable diffusion
zero-shot
分类器
SQLAlchemy
sessioin.query
Model.query
语言模型
学习
笔记
自然语言处理
sql
mysql
llama
AIGC
AI编程
agi
论文阅读
chatgpt