当前位置:   article > 正文

【AI理论学习】多模态介绍及当前研究方向

多模态

什么是多模态?

什么是多模态?多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。顾名思义,多模态研究的就是这些不同类型的数据的融合的问题

目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。这就涉及到图像和文本领域的内容。

多模态的任务和数据集有哪些?

多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。
视觉语言问题
例如给定一张图片,可以完成以下任务:

  1. VQA(Visual Question Answering)视觉问答
    输入:一张图片、一个自然语言描述的问题
    输出:答案(单
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/131375
推荐阅读
相关标签
  

闽ICP备14008679号