当前位置:   article > 正文

Pocketsphinx语音识别-----语言模型训练和声学模型的适应过程_pocketsphinx 的dic文件如何生成

pocketsphinx 的dic文件如何生成

更新一下,之前对于txt, transcription, fileid文件的对应关系一直有疑惑。今天通过实验证明,transcription和fileid直接行行对应即可。这样就可以添加多个人录音,对应相同一句话的问题了。!!!

训练语言模型

两种方法

1.对于小文本量&&英文,直接采用登录网站方式来生成语言模型lm和字典dic

利用在线工具LMTool建立语言模型,具体网址:http://www.speech.cs.cmu.edu/tools/lmtool-new.html

2.其他情况,比如大数据量的或中文,需要采用如下方法来生成语言模型。

输入:语料文本

输出: arpa或dmp文件。可相互转换。

另外,字典需要自己制造。就是dic文件,规则类似与拼音,但还不完全一样,后面在研究这个。


如何生成语言模型

准备工作,自己造一个语料库,即robot.txt文本文件。格式为:<s> 语料内容 </s> 注意<s>之后和</s>之前均应当有空格。

中间过程文件:$name.vocab  $name.idngram  $name.arpa文件,用完可删除。使用脚本./lm.sh robot.txt即可一次性生成输出文件。

输出有用文件: $name.lm.DMP

1. text2wfreq < robot.txt | wfreq2vocab > robot.vocab   生成arctic20.vocab文件

2. text2idngram -vocab robot.vocab -idngram robot.idngram < robot.txt  生成robot.idngram文件

3. idngram2lm -vocab_type 0 -idngram robot.idngram -vocab robot.vocab -arpa robot.arpa  依据第1,2步的输出,生成arpa文件

4.sphinx_lm_convert -i robot.arpa -o robot.lm.DMP   根据

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/249626
推荐阅读
相关标签
  

闽ICP备14008679号