当前位置:   article > 正文

语音识别概述

语音识别概述

语音识别概述

一.什么是语音?

语音是语言的声学表现形式,是人类自然的交流工具。

在这里插入图片描述
图片来源:https://www.shenlanxueyuan.com/course/381


二.语音识别的定义

语音识别(Automatic Speech Recognition, ASR 或 Speech to Text, STT)是将语音转换为文本的任务。其主要目标是解决机器“听清”问题,处理声学和(部分)语言上的混淆,确保每个人的语音都能被正确识别为文本。

1.主要解决的问题:
  1. 将语音转换成文本。
  2. 解决机器“听清”问题。
  3. 处理声学和部分语言上的混淆。
  4. 确保不同人的语音都能被正确识别。
2.不解决的问题:
  1. 说话人识别。
  2. 副语言信息的分析与识别(如发音、质量、韵律、情感)。
  3. 语言理解。
3.评估标准:
  1. Accuracy(准确率):

    • 音素错误率(Phone Error Rate, PER)
    • 词错误率(Word Error Rate, WER)
    • 字错误率(Character Error Rate, CER)
    • 句错误率(Sentence Error Rate, SER)
  2. Efficiency(效率):

    • 实时率(Real-time Factor, RTF)
4.错误率计算实例:
Ref:  THE CAT IN       THE        HAT
Hyp:      CAT IS   ON  THE  GREEN HAT
       DEL     SUB  INS       INS
  • 1
  • 2
  • 3

在这个例子中:

  • 第一行为正确的抄本(Ref)。
  • 第二行为识别结果(Hyp)。
  • 错误类型:第一列为删除错误(DEL),第三列为替换错误(SUB),第四列和第六列为插入错误(INS)。

错误率计算公式:Error rate=100×(1S+1D+2I)/5=80

计算过程中关注三种错误:插入错误、替换错误和删除错误。实际计算时,错误率有可能超过100%。

5.语音识别系统分类:
  1. 说话人:特定人、非特定人
  2. 语种:单一语种、多语种
  3. 词汇量:大词汇量、中词汇量、小词汇量
  4. 设备:云端、端侧
  5. 距离:近距离、远距离

三.语音识别的重要性

语音识别(ASR,Automatic Speech Recognition)是一项极具挑战性的技术,被誉为“镶嵌在人工智能皇冠上的明珠”。它在现代技术和应用中占有重要地位,主要体现在以下几个方面:

1. 快速、便捷、无接触的优点
  • 快速:语音输入的速度通常比键盘输入更快,使信息传递更加高效。
  • 便捷:用户只需说话,无需学习复杂的输入方法,使用门槛低。
  • 无接触(Hands-Free):特别适用于开车、做家务等需要双手操作的场景,提升了用户的便利性和安全性。
2. 音频内容分析与理解的基础
  • 文字转写:语音识别是将音频内容转化为文本的第一步,这一过程是进一步分析与理解音频内容的基础。
  • 文本分析:转写后的文本可以进行情感分析、主题识别等处理。
  • 数据存档:转写文本便于存储和检索,提升了数据的可用性。
3. AIoT和智能服务的入口
  • AIoT(人工智能物联网):语音识别是AIoT设备的主要交互方式,用户可以通过语音控制智能家居、可穿戴设备等。

    • 智能家居:语音助手控制灯光、温度、家电等。
    • 可穿戴设备:语音识别用于健康监测、运动记录等。
  • 智能服务:语音识别在智能客服、自动翻译等领域有广泛应用。

    • 智能客服:自动应答用户问题,提高客服效率。
    • 自动翻译:实时翻译语音内容,打破语言障碍。
4. 满足自然人机交互和内容理解与生成的需求
  • 自然人机交互:语音识别使人机交互更加自然,用户可以通过语音指令与设备进行交流,提升用户体验。

    • 虚拟助手:如Siri、Alexa、Google Assistant等通过语音识别实现自然对话。
    • 导航系统:通过语音输入目的地,提高驾驶安全性。
  • 内容理解与生成语音识别技术与自然语言处理(NLP)结合,实现内容的理解与生成。

    • 语音搜索:用户通过语音进行信息搜索,快速获取答案。
    • 语音生成:将文本转化为自然语音,实现双向交流。
5. 技术与应用的广泛性
  • 医疗领域:医生通过语音输入病历,提高工作效率,减少误诊。
  • 教育领域:语音识别用于语言学习、课堂记录等,提高学习效果。
  • 安防领域:通过语音识别进行身份验证和监控,提高安全性。

四.语音交互

在这里插入图片描述
图片来源:http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain


五.语音生成

语音生成(Speech Production)是指通过大脑指挥神经系统发出肌肉命令,进而控制发音器官运动,最终产生声音的过程。

1.语音生成过程
  • 大脑指挥:大脑发出神经信号,控制肌肉运动。

  • 神经肌肉命令:神经系统将命令传递到发音器官。

  • 发音器官运动:发音器官(如声带、口腔、鼻腔等)根据神经信号进行运动,产生声音。

2.发音的基本原理
  • 声门运动:声门的快速打开与关闭产生不同的声音。
  • 基本频率:声门震动的快慢决定声音的基本频率。
  • 口腔、鼻腔、舌头的位置及嘴型:这些因素共同决定声音的内容。
  • 肺部空气压力:肺部压缩空气的力量决定音量。
2.声音类型
  • 浊音(Voiced Sounds):由声带震动引起,波形具有明显的周期性,人们可以感受到稳定的高音。

  • 清音(Unvoiced Sounds):声带不震动,波形类似白噪声,人们无法感受到稳定的高音。

3.语音单元
  1. 音素(Phonemes):

    • 音素是语言中语音的最小单元,分为辅音(consonants)和元音(vowels)。
    • 音素的数量因语言而异。
    • 同位异音(Allophone):音素的声学实现受到上下文影响,一个音素可能有不同的实现。
  2. 词素(Morpheme):语言中最小的具有语义的结构单元。

  3. 音节(Syllable):

    • 由元音和辅音结合构成。
    • 音节头(声母):元音之前的辅音。
    • 韵母:音节头后的元音及随后的辅音。
      • 音节核:韵母中的元音。
      • 音节尾:随后的辅音。
    • 在中文中,一个汉字的读音为一个带调音节(如普通话约1300多个带调音节,去掉声调后约400个基础音节)。
4.声学特征
  1. 共振峰(Formants):

    • 在声音的频谱中,能量相对集中的区域。
    • 共振峰决定音质,反映声道的物理特征,不同元音会产生不同种类的共振。
  2. 协同发音(Coarticulation):

    • 发音过程中,每个音素会受到前后音素的影响。
    • 协同发音使得音素的声学实现与上下文强相关,因此语音识别中常建立上下文相关模型。
5.音素抄本

音素抄本(Phonetic Transcription)是一段语音对应的音素列表,可以带或不带边界。音素抄本提供时间信息,可以通过人工标注或自动对齐获得。它在语音识别的声学建模中非常重要。


六.语音感知

语音感知(Speech Perception)是指人耳将外界声音信号传递到大脑,并由大脑进行处理和理解的过程。该过程包括外耳、中耳和内耳的协同工作,以及声音的物理特性与人耳听觉特性之间的关系。

1.人耳结构
  1. 外耳

    • 功能:声源定位,对声音进行放大。
    • 组成:耳廓和外耳道。
  2. 中耳

    • 功能:进行声阻抗变换,放大声压,保护内耳。
    • 组成:鼓膜和听小骨(锤骨、砧骨、镫骨)。
  3. 内耳

    • 功能:将声压刺激转化为神经冲动,发送到大脑。
    • 组成:耳蜗和听神经。
2.物理特性与听觉特性

语音感知涉及声音的物理量和感知量之间的关系。下表总结了这些关系:

物理量 (Physical Quantity)感知量 (Perceptual Quantity)
声强 (Intensity)响度 (Loudness)
基频 (Fundamental Frequency)音高或音调 (Pitch)
频谱形状 (Spectral Shape)音色或音品 (Timbre)
起始/结束时间 (Onset/offset time)时间感知 (Timing)
双耳听觉的相位差 (Phase difference in binaural hearing)定位 (Location)
3.声音三要素
  1. 响度(Loudness):

    • 响度是人主观感受到的声音强度,与声音的频率成分有关。
    • 闻阈:人耳刚好能听见的最小响度。
    • 痛阈:声音使人耳感到疼痛时的响度。

在这里插入图片描述

图片来源:https://www.shenlanxueyuan.com/course/381

  1. 音高或音调(Pitch):

推荐阅读
相关标签