赞
踩
离线语音交互是指在没有互联网连接的情况下,通过本地设备(如手机、智能音箱等)的语音识别和语音合成技术,实现人机交互。用户可以通过语音指令控制设备进行操作,例如播放音乐、查询天气、设置闹钟等。相比在线方案,离线语音交互不依赖于网络环境,一次你更加稳定、响应更快,但因为需要在端侧芯片上运行对应的AI算法,对芯片的性能、能耗等方面也提出了更高的要求。
因为离线语音交互场景所需,这类芯片一般具备高性能、低功耗、多模态、接口开放等特点,以CSK6芯片为例,在作为离线语音交互方案中的处理核心时,为让最终产品保证在多种用户场景中的较高产品力,一般需要具备以下能力:
在语音识别技术中,传统的语音识别系统通常由多个模块组成,包括声学模型、语言模型和发音词典等。这些模块通常需要单独进行训练和优化,并且需要进行大量的工程设计和参数调整。 而端到端则采用了一种全新的方法,将整个语音识别过程看作一个黑盒子,直接从语音信号到文本输出,不需要任何人工设计的模块和中间过程。这种方法可以大大简化语音识别系统的设计和实现,提高语音识别的效率和精度。这种方法不仅可以避免传统语音识别系统中的错误传递问题,还可以减少训练和测试的时间和工作量。
以CSK芯片的离线交互能力为例,采用多通道端到端语音技术的情况下,融合传统信号处理和深度神经网络,可以减小系统设计复杂度,降低运算负荷,语音性能提高4%,实现综合唤醒率 ≥95%,综合识别率 ≥90%。
离线自由说是指在不需要联网的情况下,用户可以通过非指定的语音指令与设备进行交互,用户不需要去记忆命令词,使用户可以更加自然、无压力地与设备交互。离线自由说技术需要在设备本地集成语音识别引擎,并且需要在设备上存储大量的语音数据和模型,以实现离线语音识别的功能。通常,这种技术需要具备较高的语音识别精度和处理能力。
以CSK6芯片为例,采用聆思自研的端到端技术方案,实现语义和识别同时分类,离线稳定,交互流畅,命令词由200词提升到5W+,在模拟家居环境3m10dB条件下,可以达到以下性能:
电风扇、水吧台、吸顶灯、晾衣架、空调、洗衣机、冰箱、热水器、浴霸
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。