赞
踩
类似于HCLG的wfst结构,EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING文章提出了TLG的网络结构
有两种形式,可以基于characters和phonemes。
对应于传统的state,前后添加blank,而且状态存在自旋
S = T ∘ m i n ( d e t ( L ∘ G ) ) S=T\circ min(det(L\circ G)) S=T∘min(det(L∘G))
相比于传统的hybrid方法,准确率差不多,解码速度有三倍以上的提升。原因在于,状态数从几千个降到了几十个,减小了网络复杂度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。