赞
踩
1. 计算语言模型在测试文本上的混淆度
ngram -ppl test.txt -order 3 -lm model.3.arpa -debuge 2 > test.ppl
# -ppl 要测试的文本
# -order 语言模型的阶数,上面表示测试3-gram模型。
2. 根据语言模型在测试文本上的混淆度计算最佳混合比例
compute-best-mix lambda="0.4,0.4,0.2" A_corpus.ppl B_corpus.ppl C_corpus.ppl
# lambda 后面是各个模型的初识化比例
3. 按指定比例合并语言模型
ngram -lm model1.3.arpa -order 3 -mix-lm model2.3.arpa -lambda 0.8 -write-lm model_all.3.arpa
# -mix-lm 用于插值的第二个ngram模型,-lm是第一个ngram模型
# -lambda 主模型(-lm对应模型)的插值比例,0~1,默认是0.5
# -mix-lm2 用于插值的第三个模型
# -mix-lambda2 用于插值的第二个模型(-mix-lm对应的模型)的比例,那么第二个模型的比例为1-lambda-mix-lambda2
# 以此类推可以差值第三个模型
参考:
[1] 语言模型srilm(一) 基本用法 [CSDN]
[2] 合并语言模型时,如何得到比较合理的插值系数 [CSDN]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。