AI芯片与离线语音交互

作者：Cpp五条 | 2024-02-21 13:29:13

踩

离线语音交互

什么是离线语音交互

离线语音交互是指在没有互联网连接的情况下，通过本地设备（如手机、智能音箱等）的语音识别和语音合成技术，实现人机交互。用户可以通过语音指令控制设备进行操作，例如播放音乐、查询天气、设置闹钟等。相比在线方案，离线语音交互不依赖于网络环境，一次你更加稳定、响应更快，但因为需要在端侧芯片上运行对应的AI算法，对芯片的性能、能耗等方面也提出了更高的要求。

支持离线语音交互的芯片需要有什么特性

因为离线语音交互场景所需，这类芯片一般具备高性能、低功耗、多模态、接口开放等特点，以CSK6芯片为例，在作为离线语音交互方案中的处理核心时，为让最终产品保证在多种用户场景中的较高产品力，一般需要具备以下能力：

语音唤醒(含方言唤醒)
语音识别
回声消除
麦克风阵列
麦克风自动增益
自动EQ
声源定位
环境感知
声纹识别
离线自由说
环境降噪

端侧关键技术

多通道端到端

在语音识别技术中，传统的语音识别系统通常由多个模块组成，包括声学模型、语言模型和发音词典等。这些模块通常需要单独进行训练和优化，并且需要进行大量的工程设计和参数调整。而端到端则采用了一种全新的方法，将整个语音识别过程看作一个黑盒子，直接从语音信号到文本输出，不需要任何人工设计的模块和中间过程。这种方法可以大大简化语音识别系统的设计和实现，提高语音识别的效率和精度。这种方法不仅可以避免传统语音识别系统中的错误传递问题，还可以减少训练和测试的时间和工作量。

以CSK芯片的离线交互能力为例，采用多通道端到端语音技术的情况下，融合传统信号处理和深度神经网络，可以减小系统设计复杂度，降低运算负荷，语音性能提高4%，实现综合唤醒率 ≥95%，综合识别率 ≥90%。

离线自由说

离线自由说是指在不需要联网的情况下，用户可以通过非指定的语音指令与设备进行交互，用户不需要去记忆命令词，使用户可以更加自然、无压力地与设备交互。离线自由说技术需要在设备本地集成语音识别引擎，并且需要在设备上存储大量的语音数据和模型，以实现离线语音识别的功能。通常，这种技术需要具备较高的语音识别精度和处理能力。

以CSK6芯片为例，采用聆思自研的端到端技术方案，实现语义和识别同时分类，离线稳定，交互流畅，命令词由200词提升到5W+，在模拟家居环境3m10dB条件下，可以达到以下性能：

意图正确率 ≥90%
意图串扰率 ≤4%
支持自由说条数 ≥5万
识别响应时间 ≤800ms

离线语音交互的典型应用场景与特点

环境特点

普遍在家居场景中使用，如卧室和客厅
放置沙发、桌子、床等家居物品，容易造成声音反射，中小混响时间

噪声特点

噪声来源复杂，如阳台噪、电视噪、人声对话噪等
日夜噪声环境差异明显

常见应用

电风扇、水吧台、吸顶灯、晾衣架、空调、洗衣机、冰箱、热水器、浴霸

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/124080