赞
踩
http://www.blogbus.com/yesho-logs/10287047.html
可以从Sphinx网站上免费下载SphinxTrain和AN4语料库,解压之后编译SphinxTrain,参考SphinxTrain\doc\tinydoc.txt搭建训练系统(windows下)。
1. 建立训练系统工作目录an4,在此目录下运行
perl $SPHINXTRAINDIR\scripts_pl\setup_SphinxTrain.pl -task an4
2. 将AN4语料库中用于训练的语音文件,即wav\an4_clstk\里的数据copy到工作目录an4\wav\下。
3. 将AN4语料库中的其他文件,即etc\目录下的文件copy到an4\etc\下,包括an4.dic、an4.filler、an4.phone、an4_train.fileids、an4_train.transcription,修改an4_train.fileids的内容,去掉所有行中的an4_clstk/。
4. 运行
perl scripts_pl\make_feats.pl -ctl etc\an4_train.fileids
提取特征。
5. scripts_pl目录下有很多文件夹,对应各个不同的训练任务。参考RunAll.pl可以了解应该运行各目录下哪个perl文件。这里我们选用20.ci_hmm\slave_convg.pl,建立一个CI(Context Independent)的连续HMM系统,完成之后在model_parameters\an4.ci_cont\下得到模型参数。
6. 此时得到的模型每个状态的Gauss mixture数为1,如果想要mixture数大于1,修改sphinx_train.cfg中的$CFG_CI_MGAU='yes',mixture数可以修改$CFG_FINAL_NUM_DENSITIES,默认为8;
7. split_gaussian.pl中存在bug,137行调用inc_comp.exe时给了参数-feat和-ceplen,去掉。
8. 重新运行20.ci_hmm\slave_convg.pl,最终得到的模型参数在\model_parameters\an4.ci_cont_n\下,n为mixture数。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。