赞
踩
我们生活中的多模态指的是文字、文本、语音信号、图片信息、视频信息等这些模态以及更广泛的触觉、嗅觉等这些信号区都可以算作一种模态。目前在人工智能领域的多模态交互一般集中在文本、图像、视频、音频等信号的结合上面。
多模态学习(MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比 较热门的研究方向是图像、视频、音频、语义之间的多模态学习。
多模态的技术点如下:
这些任务基本都是和图像、音频等信息结合起来共同作用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。