当前位置:   article > 正文

【原创】《数学之美》读书笔记——第3章_数学之美第三章概括

数学之美第三章概括

第三章 统计语言模型

假设有一个句子“明天校长威廉斯打算宣布捐助1000万元给落后乡村建立一所希望小学”。改一下词的顺序,变成“校长威廉斯明天捐助打算宣布1000万元给乡村建立落后小学一所希望”。再改一下顺序,变成“威廉斯校宣布长捐助明乡村10天万元落后10希望一所小建立学”。
第一句话,能明白句子的含义,第二句话,大概读下来能才懂它的意思,而对于第三句话,基本就搞不懂它的含义了。正如上一章所言,上个世纪以前,科学家们的想法是试图判断整个文字的序列是否合乎文法、含义是否正确等,这条路走不通。而贾里尼克换了一个角度,用一个简单的统计模型解决了这个问题。
他的出发点是:要想判断一个句子是否合理,就看它的可能性,也就是概率有多大。假设上面的三个句子,第一个句子的概率最大,那么它就是最合理的句子。
判断它的概率,首先得降句子分成若干个词wi,然后求其各个词的条件概率,再相乘即可。根据其条件概率P(wi | …),“…”中考虑的是wi前面的多少个词,将其分成?元模型(假设按照马尔可夫假设,即只考虑前面的一个词相关,则称为二元模型,若考虑一个词与前面的N-1个词相关,则成为N元模型)。
而对于条件概率P(wi | wi-1),根据大数定理,只要数据量足够大,那么它可由wi和wi-1在语料库中出现的次数相除得到。读到这里,我才慢慢感悟到,原来大家说的物极至简是这么一个道理。。这么强大的功能,原来其背后的数学公式如此地简单。
不过,一般情况下,基本采用3元模型或者最多4元模型(谷歌的罗塞塔翻译系统),因为当N取值越大时,空间和时间复杂度会以指数级的数量增大,并且词的上下文相关性可能会关联到上下段落,因此不论N取值多大,都不可能完全覆盖所有情况,这就是马尔可夫假设的局限性(吴军:这时需要用一些长程的依赖性解决)。
零概率问题:对于条件概率P(wi | wi-1),等于wi和wi-1在语料库中出现的次数#相除,可能会出现概率为0的情况。这就涉及到了统计的可靠性问题。在数理统计当中,之所以按照上述方式计算概率,是有大数定理的存在,即增加数据量,但是即使数据量增加了,零概率问题也不可避免。这种模型称之为**“不平滑”**。

古德-图灵估计

为了解决不平滑问题,古德和他的老板图灵,给出了一种新的概率估计公式(古德-图灵估计)。

古德-图灵估计的原理是:对于没有看见的事件(即出现次数为0的词),不能认为它的概率就是零,因此要从概率的总量中,分配一个很小的比例给这些没有看见的事件。而对于看见的事件概率需要调小,“越是不可信的事件折扣越多”(我的理解是:出现次数越少的事件概率调的越小)。

下面以统计词典中的每个词的概率为例子。假设语料库中出现r词的词有Nr个,特别的,未出现的词的数量为N0,语料库的总大小为N。
那么出现r词的词在整个语料库中的相对频度为r*Nr/N,若不做任何优化的情况下,该相对频度则当做这些词的概率估计。若要按照古德图灵估计,则对于出现次数小于一定阈值(即出现次数小于一个特定值)的词,要假设它们的出现次数为dr(而不直接使用r),将其概率下调,且将下调得到的概率给未出现的词。
dr的计算公式为:dr = (r+1)*Nr+1/Nr
注:这里提到Zipf定律,即一般在语料库中,出现的次数r越大,其词的个数Nr就越小
所以,当r很小时,Nr+1/Nr是一个很小的值,故dr<r,其中d0>0。这样就可以给未出现的词赋予一个很小的非零值,达到解决零概率问题的目的。

而至于r越小,打的折扣越多,我个人的理解是:由书中给出的Zipf定律曲线可以看出,曲线在r越小的时候越陡,所以此时使得Nr+1/Nr的值越小(Nr增大幅度更大,Nr+1增大幅度相对更小),因此dr与r的差别也就越大,dr越小,使得打的折扣也就越多。

(不过对于书中讲述的,采取这种估计方法后,出现r词的词的概率估计为dr/N,对于这点我不是很明白。。。以后再反复理解吧。)

卡茨退避法

二元模型概率的公式如下:

f(wi|wi-1) if #(wi|wi-1)>=T

P(wi|wi-1)= fgt(wi|wi-1) if 0<#(wi|wi-1)<T

Q(wi-1)*f(wi) otherwise
注意:T为某一阀值,fgt()表示经过古德-图灵估计后的相对频度,而Q(wi-1)=(1-∑p(wi|wi-1))/∑f(wi)

暂无后续了,由于读研方向是CV,所以暂时放下这本书的阅读。。。

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/628982
推荐阅读
  

闽ICP备14008679号