当前位置:   article > 正文

自然语言_自然语言编程

自然语言编程

自然语言模型

一个句子的概率
P(s)=p(w1,w2,...wm)=p(w1)p(w2|w1)...p(wm|w1,w2,...wm1)
n-gram模型又一个假定,就是当前单词出现概率仅仅与前面n-1个单词相关。p(S)=p(w1,w2,...wm)=i=1mp(win+1,...wi1)其中n表示当前单词依赖它前面的单词的个数。p(win+1,...wi1)=C(win+1,...wi1,wi)C(win+1,...wi1)其中C(X)表示单词序列在训练语料库中出现的次数。

评估指标

语言模型常用的评估指标为复杂度perplexity,它刻画的是通过某一语言模型估计的一句话出现的概率。比如当已经知道(w1,w2,...wm)这句话出现在语料库中,那么通过语言模型计算出得出这个句子得概率越高越好,也就是perplexity得值越低越好:

Perplexity(S)=p(w1,w2,...wm)1m=1p(w1,w2,...wm)m=i=1m1p(wi|w1,w2,...wi1)m

复杂度表示的是平均分支系数,即预测下一个词时平均可选择数量。
另一种常用的perplexity表达形式
log(perplexity(S))=p(wi|w1,w2,...wi1)m

通俗易懂例子

考虑一个由0~9随机组成的长度为m的序列,由于这10个词出现的概率是随机的,所以每个词出现的概率都是1/10,因此在任意时刻,模型都有10个等概率的候选答案可以选择,于是perplexity的计算:

Perplexity(S)=i=1m1110m=10

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/437498
推荐阅读
相关标签
  

闽ICP备14008679号