赞
踩
如果两个事件 A 和 B 不是互相独立的,并且知道事件 B 已经发生,我们就能得到关于 P(A)的信息。这反映为 A 在 B 中的条件概率(在B的条件下A的概率),记为P(A|B):
【先验概率】
P(A)称为"先验概率",即在不知道B事件发生的前提下,对A事件发生概率的一个主观判断。
【可能性函数】
是一个调整因子,即新信息事件B的发生调整,作用是,使得先验概率更接近真实概率。(可能性函数可以理解为新信息过来后,对先验概率的一个调整)
【后验概率】
即在B事件发生之后,我们对A事件概率的重新评估。
【贝叶斯的底层思想】
如果能掌握一个事情的全部信息,当然能计算出一个客观概率,可是绝大多数决策面临的信息都是不全的,手中只有有限的信息。 既然无法得到全面的信息,就在信息有限的情况下,尽可能做出一个好的预测:在主观判断的基础上,可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。
【全概率公式】
全概率公式的作用是计算贝叶斯定理中的P(B)。假定样本空间S,由两个事件A与A‘组成的和(下左图):
这时发生新的一个事件B(上右图)
含义:如果A和A’构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于A和A’的概率分别乘以B对这两个事件的条件概率之和。
从统计角度看,自然语言中的一个句子s可以由任何词串构成,不过P(s)有大有小。如:
s1= 我刚吃过晚饭
s2= 刚我过晚饭吃
P(s1) > P(s2) (并不要求语法是完备的,可对任意s给出概率)
语言模型与句子是否合乎句法是没有关系。对于给定的句子s而言,通常P(s)是未知的 。
对于一个服从某个未知概率分布P的语言L,根据给定的语言样本估计P的过程被称作语言建模。
根据语言样本估计出的概率分布P就称为语言L的语言模型。
语言建模技术首先在语音识别研究中提出,后来陆续用到OCR、手写体识别、机器翻译、信息检索等领域。在语音识别中,如果识别结果有多个,则可以根据语言模型计算每个识别结果的可能性,然后挑选一个可能性较大的识别结果。
任何语言片断都有存在的可能,只是可能性大小不同。对于一个文档片段或句子 s=w1w2…wn,统计语言模型是指概率P(w1w2…wn)的求解,
根据贝叶斯公式,有:
语言模型的建立
(1)确定模型的参数集合
(2)确定模型各参数的值(参数训练)
对于二元模型:
【语言模型存在的问题】
随着i的增长, wi 的历史在训练语料中出现的概率几乎为0
【n元语法模型】
一个词出现的概率只依赖于它前面的n-1个词:
【二元语法模型(Bigram,n=2)】
【一元语法模型(Unigram,n=1)】
例子:
最大似然估计(Maximum likelihood estimation, MLE)
设试验的样本空间:
在相同情况下重复试验N次,观察到样本sk(1<=k<=n)的次数为nN(sk),那么,样本sk在这N次试验中的相对频率为:
当N越来越大时,相对频率qN(sk)就越来越接近sk的概率P(sk),即:
因此,通常用相对频率作为概率的估计值 。这种估计概率值的方法称为最大似然估计。
【二元语法模型参数P(wi|wi-1)的最大似然估计】
数据平滑技术——为了产生更准确的概率来调整最大似然估计的技术。
看这里。
【开发和测试模型的数据集】
统计自然语言处理中的一个最大的错误,是在训练数据上进行测试!!
【数据集】
1、训练数据
2、训练数据
【如何选择测试数据?】
随机法:测试数据尽可能类似于训练数据(在流派、术语、作者和词表等方面)
数据块法:实际上最终使用的数据集和训练数据一定会有些许不同,因为随着时间的推移,语言在话题和结构上会有变化。
最好选择和测试数据相同的策略来保留数据作为留存数据,使留存数据更好地模拟测试数据。
p(w3 | w1 , w2) ≈ p(C3 | C1 , C2) p(w3 | C3 ),Ci→ wi所属的类
END
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。