赞
踩
更新一下,之前对于txt, transcription, fileid文件的对应关系一直有疑惑。今天通过实验证明,transcription和fileid直接行行对应即可。这样就可以添加多个人录音,对应相同一句话的问题了。!!!
训练语言模型:
两种方法
1.对于小文本量&&英文,直接采用登录网站方式来生成语言模型lm和字典dic
利用在线工具LMTool建立语言模型,具体网址:http://www.speech.cs.cmu.edu/tools/lmtool-new.html
2.其他情况,比如大数据量的或中文,需要采用如下方法来生成语言模型。
输入:语料文本
输出: arpa或dmp文件。可相互转换。
另外,字典需要自己制造。就是dic文件,规则类似与拼音,但还不完全一样,后面在研究这个。
如何生成语言模型
准备工作,自己造一个语料库,即robot.txt文本文件。格式为:<s> 语料内容 </s> 注意<s>之后和</s>之前均应当有空格。
中间过程文件:$name.vocab $name.idngram $name.arpa文件,用完可删除。使用脚本./lm.sh robot.txt即可一次性生成输出文件。
输出有用文件: $name.lm.DMP
1. text2wfreq < robot.txt | wfreq2vocab > robot.vocab 生成arctic20.vocab文件
2. text2idngram -vocab robot.vocab -idngram robot.idngram < robot.txt 生成robot.idngram文件
3. idngram2lm -vocab_type 0 -idngram robot.idngram -vocab robot.vocab -arpa robot.arpa 依据第1,2步的输出,生成arpa文件
4.sphinx_lm_convert -i robot.arpa -o robot.lm.DMP 根据
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。