赞
踩
git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin upstream
cd kaldi
git pull
cd kaldi
cd tools
检测依赖
extras/check_dependencies.sh
根据指示安装缺失的包,直到看到:
extras/check_dependencies.sh: all OK.
然后make
make
看到下面这句话就表示完成:
All done OK.
完成之后切换到src目录在make
cd ../src
./configure
make
看到下面这句话就表示完成了:
echo Done
Done
www.openslr.org
本例实验 THCHS-30 ,所以下载 https://www.openslr.org/18/
下载完成后解压至任意文件夹,这里放在
/home/kaldi/media/thchs30-openslr
然后修改脚本:
cd kaldi/egs/thchs30/s5
vim cmd.sh
#export train_cmd=queue.pl
#export decode_cmd="queue.pl --mem 4G"
#export mkgraph_cmd="queue.pl --mem 8G"
#export cuda_cmd="queue.pl --gpu 1"
export train_cmd=run.pl
export decode_cmd="run.pl --mem 4G"
export mkgraph_cmd="run.pl --mem 8G"
export cuda_cmd="run.pl --gpu 1"
修改run.sh
vim run.sh
路径改为语料的存放路径:
#corpus and trans directory
#thchs=/nfs/public/materials/data/thchs30-openslr
thchs=/home/kaldi/media/thchs30-openslr
然后运行 run.sh 训练
去egs下,打开voxforge,里面有个online_demo,直接考到thchs30下。
在online_demo里面建2个文件夹online-data work,
在online-data下建两个文件夹audio和models,
audio下放你要回放的wav,
models建个文件夹tri1,把s5下的exp下的tri1下的final.mdl和35.mdl考过去。
把s5下的exp下的tri1下的graph_word里面的words.txt,和HCLG.fst,考到models的tri1下。
修改online_demo
的run.sh
:
#注释掉这段
#if [ ! -s ${data_file}.tar.bz2 ]; then
# echo "Downloading test models and data ..."
# wget -T 10 -t 3 $data_url;
# if [ ! -s ${data_file}.tar.bz2 ]; then
# echo "Download of $data_file has failed!"
# exit 1
# fi
#fi
#tri2b_mmi改成tri1
#ac_model_type=tri2b_mmi
ac_model_type=tri1
#model为final.mdl
#online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 #--rt-max=0.85\
# --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \
# scp:$decode_dir/input.scp $ac_model/model
online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
--max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \
scp:$decode_dir/input.scp $ac_model/final.mdl
运行./run.sh
就是开始识别了。
提示./run.sh –test-mode live
命令就是从麦克风识别。
如果报错 “没有online-wav-gmm-decode-faster” ,就去src的online和onlinebin下面重新make clean
然后 make
结果:
SIMULATED ONLINE DECODING - pre-recorded audio is used The (bigram) language model used to build the decoding graph was estimated on an audio book's text. The text in question is "King Solomon's Mines" (http://www.gutenberg.org/ebooks/2166). The audio chunks to be decoded were taken from the audio book read by John Nicholson(http://librivox.org/king-solomons-mines-by-haggard/) NOTE: Using utterances from the book, on which the LM was estimated is considered to be "cheating" and we are doing this only for the purposes of the demo. You can type "./run.sh --test-mode live" to try it using your own voice! online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85 --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 scp:./work/input.scp online-data/models/tri1/final.mdl online-data/models/tri1/HCLG.fst online-data/models/tri1/words.txt 1:2:3:4:5 ark,t:./work/trans.txt ark,t:./work/ali.txt File: 1 刘 宗 下 今年 六十 岁 五十 年代 进入 海外 就 不 工作 一 久久 斯 年 十二月 任 外交 安 堡 首席 秘书 File: 2 福安 广告 公司 方面 说 他们 并不 赞成 差 朦胧 重 广告 但 上头 有 压力 没有 谈 File: 3 他 奇怪 自己 不仅 无疑 死去 前 就 由 中 与 对手 劈 杀 较量 跃跃欲试 的 行径 File: 4 塞 军 为 职业 运动员 最 常 二十四 千米 业余 运动员 进场 二十一 前 青年 运动员 进场 时 五 千米 File: 5 今年 来 影坛 哨所 魔鬼 亚 辖 耀 涛 文 刀 杀人 鲜 血淋淋 的 凶杀 场面 的 承诺 某些 娱乐 篇 必不可少 的 内容
可见 ,准确度较低
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。