赞
踩
本文是对如下多模态机器学习综述的阅读笔记之一。主要包括摘要、引言、基本原则等内容。
PAUL PU LIANG, AMIR ZADEH, and LOUIS-PHILIPPE MORENCY,
Machine Learning Department and Language Technologies Institute, Carnegie Mellon University, USA
论文链接:https://arxiv.org/pdf/2209.03430.pdf
多模态机器学习是一个充满活力的多学科研究领域,旨在通过整合多种交互方式(包括语言、听觉、视觉、触觉和生理信息)来设计具有理解、推理和学习等智能能力的计算机智能体。随着最近对视频理解、具身自治智能体( embodied autonomous agents)、文本到图像生成以及医疗保健和机器人等应用领域的多传感器融合的兴趣,多模态机器学习给机器学习社区带来了独特的计算和理论挑战,因为数据源的异构性和模态之间经常发现的相互联系。然而,多模态研究进展的广度使得很难确定该领域的共同主题和开放性问题。本文从历史和近期的角度综合了广泛的应用领域和理论框架,旨在概述多模态机器学习的计算和理论基础。我们首先定义了推动后续创新的模态异质性、关联和相互作用(heterogeneity, connections, and interactions)的三个关键原则,并提出了六个核心技术挑战的分类法:表示、对齐、推理、生成、转移和量化(representation, alignment, reasoning, generation, transference, quantification),涵盖历史和近期趋势。最近的技术成就将通过该分类法的视角进行展示,使研究人员能够了解新方法之间的异同。最后,我们提出了几个未解决的问题,供未来的研究使用,如我们的分类法所确定的那样。
通过多模态体验和数据,开发具有理解、推理和学习等智能能力的计算机智能体一直是人工智能的宏伟目标,类似于人类使用多种感官模式感知世界并与之互动的方式。随着具身自主智能体( embodied autonomous agents) [37, 222]、自动驾驶汽车 [295]、图像和视频理解 [11, 243]、图像和视频生成 [210, 234] 以及机器人 [136, 170] 和医疗保健 [119, 151] 等应用领域的多传感器融合的最新进展,我们现在比以往任何时候都更接近能够整合和学习多种感官模式的智能体。鉴于数据的异质性和模态之间经常发现的相互联系,多模态机器学习这一充满活力的多学科研究领域带来了独特的挑战,并在多媒体[184]、情感计算[204]、机器人技术[127,136]、人机交互[190,228]和医疗保健[40,180]中得到了广泛的应用。
具身(Embodiment):指具有支持感觉和运动(sensorimotor)的物理身体。
具身智能(Embodied AI):有身体并支持物理交互的智能体,如家用服务机器人、无人车等。
然而,多模态研究的进展速度使得很难确定共同的历史和近期工作的主题,以及该领域的关键开放性问题。通过综合广泛的多模态研究,本文旨在概述多模态机器学习的方法、计算和理论基础,补充最近在视觉和语言[269]、语言和强化学习[161]、多媒体分析[19]和人机交互[114]等方面面向应用的综述。
To better understand the foundations of multimodal machine learning, we begin by defining (in §2) three key principles that have driven subsequent technical challenges and innovations: (1) modalities are heterogeneous because the information present often shows diverse qualities, structures, and representations, (2) modalities are connected since they are often related and share commonalities, and (3) modalities interact to give rise to new information when used for task inference. Building upon these definitions, we propose a new taxonomy of six core challenges in multimodal learning: representation, alignment, reasoning, generation, transference, and quantification (see Figure 1). These constitute core multimodal technical challenges that are understudied in conventional unimodal machine learning, and need to be tackled in order to progress the field forward:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。