寸_铁

这个屌丝很懒，什么也没留下！

热门标签

语音识别概述

作者：寸_铁 | 2024-07-19 13:58:47

踩

语音识别概述

一.什么是语音？

语音是语言的声学表现形式，是人类自然的交流工具。

在这里插入图片描述
图片来源：https://www.shenlanxueyuan.com/course/381

二.语音识别的定义

语音识别（Automatic Speech Recognition, ASR 或 Speech to Text, STT）是将语音转换为文本的任务。其主要目标是解决机器“听清”问题，处理声学和（部分）语言上的混淆，确保每个人的语音都能被正确识别为文本。

1.主要解决的问题：

将语音转换成文本。
解决机器“听清”问题。
处理声学和部分语言上的混淆。
确保不同人的语音都能被正确识别。

2.不解决的问题：

说话人识别。
副语言信息的分析与识别（如发音、质量、韵律、情感）。
语言理解。

3.评估标准：

Accuracy（准确率）:
- 音素错误率（Phone Error Rate, PER）
- 词错误率（Word Error Rate, WER）
- 字错误率（Character Error Rate, CER）
- 句错误率（Sentence Error Rate, SER）
Efficiency（效率）:
- 实时率（Real-time Factor, RTF）

4.错误率计算实例：

Ref：  THE CAT IN       THE        HAT
Hyp：      CAT IS   ON  THE  GREEN HAT
       DEL     SUB  INS       INS
1
2
3

在这个例子中：

第一行为正确的抄本（Ref）。
第二行为识别结果（Hyp）。
错误类型：第一列为删除错误（DEL），第三列为替换错误（SUB），第四列和第六列为插入错误（INS）。

错误率计算公式：Error rate=100×(1S+1D+2I)/5=80

计算过程中关注三种错误：插入错误、替换错误和删除错误。实际计算时，错误率有可能超过100%。

5.语音识别系统分类：

说话人:特定人、非特定人
语种:单一语种、多语种
词汇量:大词汇量、中词汇量、小词汇量
设备:云端、端侧
距离:近距离、远距离

三.语音识别的重要性

语音识别（ASR，Automatic Speech Recognition）是一项极具挑战性的技术，被誉为“镶嵌在人工智能皇冠上的明珠”。它在现代技术和应用中占有重要地位，主要体现在以下几个方面：

1. 快速、便捷、无接触的优点

快速：语音输入的速度通常比键盘输入更快，使信息传递更加高效。
便捷：用户只需说话，无需学习复杂的输入方法，使用门槛低。
无接触（Hands-Free）：特别适用于开车、做家务等需要双手操作的场景，提升了用户的便利性和安全性。

2. 音频内容分析与理解的基础

文字转写：语音识别是将音频内容转化为文本的第一步，这一过程是进一步分析与理解音频内容的基础。
文本分析：转写后的文本可以进行情感分析、主题识别等处理。
数据存档：转写文本便于存储和检索，提升了数据的可用性。

3. AIoT和智能服务的入口

AIoT（人工智能物联网）：语音识别是AIoT设备的主要交互方式，用户可以通过语音控制智能家居、可穿戴设备等。
- 智能家居：语音助手控制灯光、温度、家电等。
- 可穿戴设备：语音识别用于健康监测、运动记录等。
智能服务：语音识别在智能客服、自动翻译等领域有广泛应用。
- 智能客服：自动应答用户问题，提高客服效率。
- 自动翻译：实时翻译语音内容，打破语言障碍。

4. 满足自然人机交互和内容理解与生成的需求

自然人机交互：语音识别使人机交互更加自然，用户可以通过语音指令与设备进行交流，提升用户体验。
- 虚拟助手：如Siri、Alexa、Google Assistant等通过语音识别实现自然对话。
- 导航系统：通过语音输入目的地，提高驾驶安全性。
内容理解与生成：语音识别技术与自然语言处理（NLP）结合，实现内容的理解与生成。
- 语音搜索：用户通过语音进行信息搜索，快速获取答案。
- 语音生成：将文本转化为自然语音，实现双向交流。

5. 技术与应用的广泛性

医疗领域：医生通过语音输入病历，提高工作效率，减少误诊。
教育领域：语音识别用于语言学习、课堂记录等，提高学习效果。
安防领域：通过语音识别进行身份验证和监控，提高安全性。

四.语音交互

在这里插入图片描述
图片来源：http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain

五.语音生成

语音生成（Speech Production）是指通过大脑指挥神经系统发出肌肉命令，进而控制发音器官运动，最终产生声音的过程。

1.语音生成过程

大脑指挥：大脑发出神经信号，控制肌肉运动。
神经肌肉命令：神经系统将命令传递到发音器官。
发音器官运动：发音器官（如声带、口腔、鼻腔等）根据神经信号进行运动，产生声音。

2.发音的基本原理

声门运动：声门的快速打开与关闭产生不同的声音。
基本频率：声门震动的快慢决定声音的基本频率。
口腔、鼻腔、舌头的位置及嘴型：这些因素共同决定声音的内容。
肺部空气压力：肺部压缩空气的力量决定音量。

2.声音类型

浊音（Voiced Sounds）：由声带震动引起，波形具有明显的周期性，人们可以感受到稳定的高音。
清音（Unvoiced Sounds）：声带不震动，波形类似白噪声，人们无法感受到稳定的高音。

3.语音单元

音素（Phonemes）：
- 音素是语言中语音的最小单元，分为辅音（consonants）和元音（vowels）。
- 音素的数量因语言而异。
- 同位异音（Allophone）：音素的声学实现受到上下文影响，一个音素可能有不同的实现。
词素（Morpheme）：语言中最小的具有语义的结构单元。
音节（Syllable）：
- 由元音和辅音结合构成。
- 音节头（声母）：元音之前的辅音。
- 韵母：音节头后的元音及随后的辅音。
  - 音节核：韵母中的元音。
  - 音节尾：随后的辅音。
- 在中文中，一个汉字的读音为一个带调音节（如普通话约1300多个带调音节，去掉声调后约400个基础音节）。

4.声学特征

共振峰（Formants）：
- 在声音的频谱中，能量相对集中的区域。
- 共振峰决定音质，反映声道的物理特征，不同元音会产生不同种类的共振。
协同发音（Coarticulation）：
- 发音过程中，每个音素会受到前后音素的影响。
- 协同发音使得音素的声学实现与上下文强相关，因此语音识别中常建立上下文相关模型。

5.音素抄本

音素抄本（Phonetic Transcription）是一段语音对应的音素列表，可以带或不带边界。音素抄本提供时间信息，可以通过人工标注或自动对齐获得。它在语音识别的声学建模中非常重要。

六.语音感知

语音感知（Speech Perception）是指人耳将外界声音信号传递到大脑，并由大脑进行处理和理解的过程。该过程包括外耳、中耳和内耳的协同工作，以及声音的物理特性与人耳听觉特性之间的关系。

1.人耳结构

外耳：
- 功能：声源定位，对声音进行放大。
- 组成：耳廓和外耳道。
中耳：
- 功能：进行声阻抗变换，放大声压，保护内耳。
- 组成：鼓膜和听小骨（锤骨、砧骨、镫骨）。
内耳：
- 功能：将声压刺激转化为神经冲动，发送到大脑。
- 组成：耳蜗和听神经。

2.物理特性与听觉特性

语音感知涉及声音的物理量和感知量之间的关系。下表总结了这些关系：

物理量 (Physical Quantity)	感知量 (Perceptual Quantity)
声强 (Intensity)	响度 (Loudness)
基频 (Fundamental Frequency)	音高或音调 (Pitch)
频谱形状 (Spectral Shape)	音色或音品 (Timbre)
起始/结束时间 (Onset/offset time)	时间感知 (Timing)
双耳听觉的相位差 (Phase difference in binaural hearing)	定位 (Location)

3.声音三要素

响度（Loudness）：
- 响度是人主观感受到的声音强度，与声音的频率成分有关。
- 闻阈：人耳刚好能听见的最小响度。
- 痛阈：声音使人耳感到疼痛时的响度。

在这里插入图片描述

图片来源：https://www.shenlanxueyuan.com/course/381

音高或音调（Pitch）：
- 音调是人耳对声音频率的感知，是非线性的，近似对数函数。
- 音调和频率的近似关系：本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/851896