当前位置:   article > 正文

AI芯片与离线语音交互

离线语音交互

什么是离线语音交互

离线语音交互是指在没有互联网连接的情况下,通过本地设备(如手机、智能音箱等)的语音识别和语音合成技术,实现人机交互。用户可以通过语音指令控制设备进行操作,例如播放音乐、查询天气、设置闹钟等。相比在线方案,离线语音交互不依赖于网络环境,一次你更加稳定、响应更快,但因为需要在端侧芯片上运行对应的AI算法,对芯片的性能、能耗等方面也提出了更高的要求。

支持离线语音交互的芯片需要有什么特性

因为离线语音交互场景所需,这类芯片一般具备高性能、低功耗、多模态、接口开放等特点,以CSK6芯片为例,在作为离线语音交互方案中的处理核心时,为让最终产品保证在多种用户场景中的较高产品力,一般需要具备以下能力:

  • 语音唤醒(含方言唤醒)
  • 语音识别
  • 回声消除
  • 麦克风阵列
  • 麦克风自动增益
  • 自动EQ
  • 声源定位
  • 环境感知
  • 声纹识别
  • 离线自由说
  • 环境降噪

端侧关键技术

多通道端到端

在语音识别技术中,传统的语音识别系统通常由多个模块组成,包括声学模型、语言模型和发音词典等。这些模块通常需要单独进行训练和优化,并且需要进行大量的工程设计和参数调整。 而端到端则采用了一种全新的方法,将整个语音识别过程看作一个黑盒子,直接从语音信号到文本输出,不需要任何人工设计的模块和中间过程。这种方法可以大大简化语音识别系统的设计和实现,提高语音识别的效率和精度。这种方法不仅可以避免传统语音识别系统中的错误传递问题,还可以减少训练和测试的时间和工作量。

以CSK芯片的离线交互能力为例,采用多通道端到端语音技术的情况下,融合传统信号处理和深度神经网络,可以减小系统设计复杂度,降低运算负荷,语音性能提高4%,实现综合唤醒率 ≥95%综合识别率 ≥90%

离线自由说

离线自由说是指在不需要联网的情况下,用户可以通过非指定的语音指令与设备进行交互,用户不需要去记忆命令词,使用户可以更加自然、无压力地与设备交互。离线自由说技术需要在设备本地集成语音识别引擎,并且需要在设备上存储大量的语音数据和模型,以实现离线语音识别的功能。通常,这种技术需要具备较高的语音识别精度和处理能力。

以CSK6芯片为例,采用聆思自研的端到端技术方案,实现语义和识别同时分类,离线稳定,交互流畅,命令词由200词提升到5W+,在模拟家居环境3m10dB条件下,可以达到以下性能:

  • 意图正确率           ≥90%
  • 意图串扰率           ≤4%
  • 支持自由说条数    ≥5万
  • 识别响应时间        ≤800ms

离线语音交互的典型应用场景与特点

环境特点

  • 普遍在家居场景中使用,如卧室和客厅
  • 放置沙发、桌子、床等家居物品,容易造成声音反射,中小混响时间
     

 噪声特点

  • 噪声来源复杂,如阳台噪、电视噪、人声对话噪等
  • 日夜噪声环境差异明显

常见应用

电风扇、水吧台、吸顶灯、晾衣架、空调、洗衣机、冰箱、热水器、浴霸

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/124080
推荐阅读
相关标签
  

闽ICP备14008679号