kaldi之HCLG生成

作者：2023面试高手 | 2024-03-30 23:07:18

踩

hclg

1.words.txt: word->id; phones.txt: 音素->id; silence.csl: 静音音素id； disambig.int: 消歧音素id

2.G.fst生成：先用SRILM等工具对语料进行平滑等操作生成语言模型，再用arpa2fst将arpa语音模型文件转成fst状态机文件。

ngram-count -kndiscount -interpolate -text top_sentence_txt.txt -lm tpo_sentence.lm

cat tpo_sentence.lm | arpa2fst --disambig-symbol=#0 --read-symbol-table=data/lang_nosp_test_tglarge/words.txt - data/lang_nosp_test_tglarge/G.fst

3.fsttablecompose将两个fst(L.fst、G.fst)合并成一个fst(LG.fst),将前端输出字符对应上后端输入即可，合并后前端输入作为合并后fst之输入，后端输出作为合并后输出；fstdeterminizestar做确定化(从一个状态接收同一个输入后只会跳转到一个状态)，消除空转移，降低图的冗余度；fstminimizeencoded将fst最小化，将权重尽量前推，尽量利用上语言模型的信息，避免重要路径被剪枝；fstisstochastic进行归一化，保证状态上各输出概率之合为1。

4.fstcomposecontexts根据音素上下文生成CLG.fst。

5.make-h-transducer基于HMM拓扑结构构建不带自转移的声学模型Ha.fst。

6.fsttablecompose合并CLG.fst与Ha.fst生成HCLG.fst。

-----------------------------format_lm.sh-----------------------------

#解压lm语言模型文件，使用arapa2fst（#0为销歧义符,words.txt为字典）生成G.fst

gunzip -c $lm | arpa2fst --disambig-symbol=#0 --read-symbol-table=$out_dir/words.txt - $out_dir/G.fst

-----------------------------mkgraph.sh-----------------------------

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/342181