赞
踩
说实话,传统的语音识别实在太繁琐了,需要声学模型,语言模型和发音词典三大组件,不同模型需要分来训练,然后通过WFST等解码器再融合到一起,步骤甚为繁琐,每个组件的训练或设计均需要专业知识和技术积累。
端到端(End to End, E2E)只需要输入端的语音特征和输出端的文本信息,就融合成一个模型,直接实现输入语音到输出文本的转换。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。