赞
踩
对话交互是继传统PC、PC互联网及移动互联网之后,下一个时代非常有想象力的关键技术方向,无论是学术界还是工业界都有极高的关注度,同时作为OPPO万物互融战略的关键节点之一,承载着伟大而艰巨的使命。
算法是对话交互的核心能力之一,决定了语音助手能达到的智能化水平,具有极高的技术价值。本文将主要从对话交互的目标、算法要解决的关键问题,行业现状与趋势、小布主要实践与进展,以及挑战与未来几个方面做个介绍。
通俗来说,对话交互的目标就是通过语音或文字以自然对话的方式,完成任务执行、信息获取、情感交流等人机交互过程。比如像科幻电影里面的贾维斯、大白等智能助理,代表了人们关于对话交互能力理想状态的期待。
对话交互近年来受到越来越多的关注,其背后的原因究竟是什么呢?其实回顾下近40年来信息科技发展的历程,就不难理解。我们知道,信息科技先后经历了传统PC、PC互联网、移动互联网几个大时代,其中每一个时代都与设备密切相关,进而催生入口和交互方式的革命。而今我们正迈向被寄予厚望的AIoT时代,对话交互因其在新一代搜索引擎、超级服务分发中心、新型交互方式等方面的巨大想象力,恰好承载了这一新时代下一入口级交互变革的使命愿景。
然而,想要达到理想的对话交互效果是非常困难的,主要是因为它需要跨越目前成熟的感知智能技术,迈向认知智能,当下在认知智能领域还存在很多尚未根本解决甚至未能清晰定义的问题。典型的认知难题包括如何表示和理解常识,如何使机器具有推理和规划能力,如何使机器有像人一样的想象力和自主性等。在某种程度上,可以说解决了认知智能的问题,基本上就等同于实现了强人工智能,足见对话交互的难度之高。
对话交互的主干流程如下图所示,从中不难发现几乎所有关键节点都与算法相关,算法是取得较好对话交互效果的核心能力。
对于OPPO自研的小布助手,其算法能力现状如下表所示,语音唤醒主要由三方和软件工程系统支持,目前在新机效果上对齐行业Top竞品,但是存在老机型技术升级成本高、部分低端机型无法支持语音唤醒等问题;语音识别同时使用了三方和OPPO研究院的能力,由于语音识别技术相关成熟,整体效果较好,字错率能控制在6%以下,目前的主要问题在于音频质量;语音合成与语音识别类似,也是由三方和OPPO研究院共同支持,在准确性和流畅度上效果较好,但是自然度、情感化等维度评测非常主观,目前也暂不支持用户个性化;语义理解和对话能力主要有业务技术团队提供,在语义理解方面准确率和召回率都能达到90%以上,存在开放域长尾query理解难度大的问题;在对话能力方面目前支持沉浸式强多轮、自由切换弱多轮、上文推理多轮等,多轮的难点主要是难评测,用户习惯弱、线上渗透率低。
语义理解和对话能力是本文的重点,主要任务是在拿到用户Query后,通过先理解用户要什么,再决定给用户什么,最终组装合适资源恰当满足用户。由语义理解和对话能力组成语义算法系统就是为了达成以上目标的,该系统的涉及主要会面临系统性问题和技术类问题两大类,如下图所示。
系统性问题包括面向需要支持全领域query、数百项技能、多设备多渠道的复杂系统,如何解耦拆解;面向产品需求多、模块多流程长、算法不确定性大等问题,如何高效迭代;面向无法穷举的多样化口语Query,如何通过效果监控保障体验;如何规避低级缺陷、答非所问、过度兜底等“智障”体验。
技术类问题则包括算法的选型、关键问题的建模求解、多轮对话的控制、性能方面的保障等。
首先,对
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。