赞
踩
语音是语言的声学表现形式,是人类自然的交流工具。
图片来源:https://www.shenlanxueyuan.com/course/381
语音识别(Automatic Speech Recognition, ASR 或 Speech to Text, STT)是将语音转换为文本的任务。其主要目标是解决机器“听清”问题,处理声学和(部分)语言上的混淆,确保每个人的语音都能被正确识别为文本。
Accuracy(准确率):
Efficiency(效率):
Ref: THE CAT IN THE HAT
Hyp: CAT IS ON THE GREEN HAT
DEL SUB INS INS
在这个例子中:
错误率计算公式:Error rate=100×(1S+1D+2I)/5=80
计算过程中关注三种错误:插入错误、替换错误和删除错误。实际计算时,错误率有可能超过100%。
语音识别(ASR,Automatic Speech Recognition)是一项极具挑战性的技术,被誉为“镶嵌在人工智能皇冠上的明珠”。它在现代技术和应用中占有重要地位,主要体现在以下几个方面:
AIoT(人工智能物联网):语音识别是AIoT设备的主要交互方式,用户可以通过语音控制智能家居、可穿戴设备等。
智能服务:语音识别在智能客服、自动翻译等领域有广泛应用。
自然人机交互:语音识别使人机交互更加自然,用户可以通过语音指令与设备进行交流,提升用户体验。
内容理解与生成:语音识别技术与自然语言处理(NLP)结合,实现内容的理解与生成。
图片来源:http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain
语音生成(Speech Production)是指通过大脑指挥神经系统发出肌肉命令,进而控制发音器官运动,最终产生声音的过程。
大脑指挥:大脑发出神经信号,控制肌肉运动。
神经肌肉命令:神经系统将命令传递到发音器官。
发音器官运动:发音器官(如声带、口腔、鼻腔等)根据神经信号进行运动,产生声音。
浊音(Voiced Sounds):由声带震动引起,波形具有明显的周期性,人们可以感受到稳定的高音。
清音(Unvoiced Sounds):声带不震动,波形类似白噪声,人们无法感受到稳定的高音。
音素(Phonemes):
词素(Morpheme):语言中最小的具有语义的结构单元。
音节(Syllable):
共振峰(Formants):
协同发音(Coarticulation):
音素抄本(Phonetic Transcription)是一段语音对应的音素列表,可以带或不带边界。音素抄本提供时间信息,可以通过人工标注或自动对齐获得。它在语音识别的声学建模中非常重要。
语音感知(Speech Perception)是指人耳将外界声音信号传递到大脑,并由大脑进行处理和理解的过程。该过程包括外耳、中耳和内耳的协同工作,以及声音的物理特性与人耳听觉特性之间的关系。
外耳:
中耳:
内耳:
语音感知涉及声音的物理量和感知量之间的关系。下表总结了这些关系:
物理量 (Physical Quantity) | 感知量 (Perceptual Quantity) |
---|---|
声强 (Intensity) | 响度 (Loudness) |
基频 (Fundamental Frequency) | 音高或音调 (Pitch) |
频谱形状 (Spectral Shape) | 音色或音品 (Timbre) |
起始/结束时间 (Onset/offset time) | 时间感知 (Timing) |
双耳听觉的相位差 (Phase difference in binaural hearing) | 定位 (Location) |
响度(Loudness):
图片来源:https://www.shenlanxueyuan.com/course/381
音高或音调(Pitch):
音调是人耳对声音频率的感知,是非线性的,近似对数函数。
音调和频率的近似关系: 本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/851896
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。