赞
踩
语音识别系统(Automatic Speech Recognition,ASR),作为当今最热门的自然语言理解技术,其实现原理及功能均十分复杂,涉及多种领域知识、方法论、技术手段等。近年来随着各种新技术的出现,越来越多的人对语音识别系统的研究及应用产生了浓厚兴趣。在此基础上,笔者整理并梳理了当前关于语音识别系统的热点技术以及相关理论,并基于这些信息,详细阐述了语音识别系统的基本原理、主要技术特点、应用场景、系统结构、性能指标以及关键算法的原理及应用方式。文章最后将探讨语音识别系统的未来发展方向和展望。
语音识别系统通常由语音识别模块、声学模型、语言模型以及解码器等组成,如图所示。 图1 语音识别系统概览
首先需要对语音信号进行处理。通过对音频数据采样、加窗、高通滤波、语音增强等方法进行处理,使之满足声学模型提取特征的输入要求,得到预处理后的语音信号。常用的语音处理方法有短时傅里叶变换法(Short Time Fourier Transform, STFT),语谱图法(Spectrogram),Mel频率倒谱系数法(Mel Frequency Cepstral Coefficients)。
声学模型用于分析声音中各个成分的特性,包括时频分布、频谱包络等。常用的声学模型有三角频率倒谱系数法(Triangular Frequency Cepstral Coefficients), 梅尔频率倒谱系数法(Mel Frequency Cepstral Coefficients),或高斯混合模型法(Gaussian Mixture Modeling)。声学模型往
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。