当前位置:   article > 正文

Ngram:多语言模型插值_ngram 插值

ngram 插值

Ngram功能

训练:
ngram-count -text dir/train \ # 语料
-order 3 \ # 阶数
-limit-vocab -vocab dir/wordlist -unk \
-map-unk “”
-kndiscount -interpolate -lm $dir/lm.arpa

测试:引用测试集来计算语言模型的PPL(perplexity:困惑度)
ngram -ppl test.txt -order 3 -lm train.3gram -debug 1 >result.ppl
-ppl:指向测试集(test.txt)
-order:需与LM的参数保持一致,意思也相同。
-lm:这里指的是训练好的LM
-debug:这里debug取值0时表示输出整体打分情况;debug取值1时表示输出句子的打分情况;debug取值2时表示输出每个词的概率。

模型插值:用于多个语言模型之间插值合并,以期望改善模型的效果
ngram -lm ${mainlm} -order 2 -mix-lm ${mixlm} -lambda 0.8 -write-lm ${mergelm}
模型插值参数:
-mix-lm 用于插值的第二个ngram模型,-lm是第一个ngram模型
-lambda 主模型(-lm对应模型)的插值比例,0~1,默认是0.5
-mix-lm2 用于插值的第三个模型
-mix-lambda2 用于插值的第二个模型(-mix-lm对应的模型)的比例,那么第二个模型的比例为1-lambda-mix-lambda2
-vocab 当两个模型的词典不一样的时候,使用该参数限制词典列表,没有效果
-limit-vocab 当两个模型的词典不一样的时候,使用该参数限制词典列表,没有效果
ngram -lm ${mainlm} -order 2 -mix-lm ${mixlm} -lambda 0.8 -write-lm ${mergelm}

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/357131
推荐阅读
相关标签
  

闽ICP备14008679号