行业洞察 | 如何更好的实现与虚拟人的互动体验？_虚拟人对话是怎么实现的

作者：盐析白兔 | 2024-05-29 19:41:13

踩

虚拟人对话是怎么实现的

2020以来，新冠疫情让很多明星“营业”困难，AI技术却让虚拟人走红出圈。近期最为火爆的虚拟人当属百度的度晓晓，作为一位可甜可咸的小美女。与同为百度出品的虚拟人龚俊共同演唱歌曲，几十秒创作的画作卖了17万，为高考学生陪聊减压，用时1秒钟即兴写成高考作文《苦练本手，方能妙手随成》...网友们不禁感慨，还有她不会的吗？

无独有偶，这些数字虚拟人早已进入了从音乐、视频到游戏等众多领域，更不用说像Instagram和TikTok这样的社交网络。二次元萌宠“黄逗菌”吸引大量粉丝，“初音未来”正式入驻淘宝直播，“洛天依”出专辑开演唱会甚至登上卫视晚会…… 很多90后00后的idol已经从明星艺人变成了人设永远不会崩塌的虚拟人。

目前，在与虚拟人的互动中，语音成为重要的交互媒介之一。如何让虚拟人听懂我们的表达，从而对我们的诉求给予合理的答复，是虚拟人底层技术的关键。

一、虚拟人的语音交互技术

有关虚拟人的语音交互技术，主要包括：语音识别ASR、语义理解NLU、知识图谱KG、语言生成NLG以及语音合成TTS等模块。

01 - 语音识别 ASR：理解用户诉求

虚拟人的语音识别如同我们人类的耳朵，在与人交互过程中，需要通过聆听对方的语言从而理解对方的意图。目前大部分产品为单轮对话，采用一问一答交替的形式，对用户的纠正信息、打断对话等不做响应处理。期待未来的技术发展方向能够打造出边听边思考的信息流状态。

02 - 语义理解NLU：听懂用户意图

在语义理解层面，数字人要做到除了字面含义外，用户的意图识别、情绪识别、对话的上下文信息关联都是需要考虑的因素。

03 - 知识图谱KG：最强大脑

知识图谱中，依赖于通过构建相互关系，检索用户诉求的答案，构建合理的回复逻辑。

04 - 语言生成NLG：生成结果

语言是人类所擅长的，对该技术的预期自然很高。如果数字人的表达像小朋友，有时反而会很讨喜。在语言生成结果上，需要结合用户情绪、心理预期维度的研究给予合理的回复。

05 - 语音合成TTS：播放给用户听

虚拟人的语音合成相当于人类的发音器官。目前大部分产品选择影视明星的声音或者合成具有特色的AI虚拟人声音，对用户进行回复。

二、与虚拟人交互的瓶颈

用户体验决定产品能走多久。针对上面的基础技术支撑，影响用户体验的瓶颈主要集中在语音识别和语音合成的效果。由于虚拟人面向全球的粉丝用户，需要识别不同语种、方言、各种风格、各个年龄段的说话人语音，这就需要虚拟人产品的深度语音识别模型具有很强的鲁棒性。另外，合成语音直接影响用户听感，如何合成拟人化、逻辑清晰合理的语音是影响用户体验最关键的因素。

由于目前的语音识别和语音合成都是基于深度学习模型。其模型训练数据覆盖的全面与否，是否具体域内数据自适应都会影响其效果。Magic Data作为全球领先的AI数据解决方案提供商，拥有海量对话语音数据、以及语音合成相关的语料库，覆盖多领域、多语种、多方言，多场景，能够为提升语音合成的鲁棒性以及语音合成的拟人化、真实性提供更多保障。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/643716