多模态交互的概念与现状_多模态交互场景

作者：小蓝xlanll | 2024-04-01 16:55:29

踩

多模态交互场景

一、多模态概念

所谓“模态”，英文是modality，用通俗的话说，就是“感官”，多模态即将多种感官融合。
目前的人机智能交互比如语言控制不如屏幕控制那么精准，很多时候会误判指令和错误唤醒，比较语言充满了不确定性；再比如，语音交互的物联网设备还是缺乏主动服务的能力，只是换了操作方式而已，用户体验没有本质提升。
假如我们把“模态”通俗地理解为感官，那么智能音箱就是只具备听觉模态的物联网设备，而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起，多模态物联网也就诞生了。
目前的AI设备中感知模态主要有三种：
1.语音交互，包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域；
2. 机器视觉，包括自然物体识别、人脸识别、肢体动作识别等；
3. 传感器智能，包括AI对热量、红外捕捉信号、空间信号的阅读与理解。
把这三种东西融合在一起，物联网设备就可以在单纯的能听会说之外，同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知还包括机器嗅觉，机器触觉和情绪理解等内容，但目前还没有落地产品。

二、多模态应用

目前多模态交互的主要应用场景：
场景一：多模态AI交互技术投射在物联网设备上，大概就是用机器视觉技术进行嘴唇识别，来分离语音交互指令。尝试通过用机器视觉来读取说话人的唇语和动作，来判断每个声音指令的来源。
场景二：多模态空调。在一些新的智能空调解决方案中，空调会在语音交互的基础上通过机器视觉来判断用户的位置，提供智能送冷，并且会结合传感器判断屋内温度和湿度，提供更精准的环境方案。
场景三：多模态电视。今年电视背后的AI平台战打得风生水起，把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离，电视可以主动调节屏幕光线强度，输出比较护眼的模式。还有的AI应用是让电视在观察到儿童看电视后主动开启童锁。

三、多模态交互解决方案

目前来看，无论是家电还是工业设备，实现多模态混合的主要方式还是把不同的传感源输入到设备处理中心，启动一定程序来开启相应服务。换句话说，AI模型本身是没法理解多模态信号的，只是不同的算法启动不同的开关而已。这种“伪AI多模态”的设备也不是不行，只是在实时化和复杂的推理判断上会有心无力。
解决方案可能是一种叫做“多模态深度学习”的技术，让AI智能体本身能够理解多模态信号，从算法本身就容纳听觉、视觉、传感信号进行统一思考。这样可以保证设备高度实时化，并且可以让设备进行多模态协同学习，真正地“聪明”起来。

四、多模态交互产品

物灵科技 ---- Luka Hero ，Luka Baby机器人（早教机），绘本（定制）阅读
阿里巴巴 ----AliOS智能车载交互系统：，AliOS对外宣布了人脸识别技术，可以针对不同的驾驶者进行差异化的智能化场景服务。AliOS通过车内摄像头对驾驶员进行面部识别，从而提供播放个人歌单、常用路径、座椅及后视镜角度自适应等个性化服务。

五、总结

目前来说，还没有真正意义上的多模态落地产品，多数产品只是打着多模态的旗号进行宣传，实际工作时，各模态之间还是独立运作，即虽然这些产品都有眼、有耳，但眼只做图像处理，耳只做语音识别，运行时并没有进行交差计算。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/349638