14k字综述视觉大模型_视觉大模型 csdn

作者：从前慢现在也慢 | 2024-07-29 08:11:04

踩

视觉大模型 csdn

0.导读

众所周知，视觉系统对于理解和推理视觉场景的组成特性至关重要。这个领域的挑战在于对象之间的复杂关系、位置、歧义、以及现实环境中的变化等。作为人类，我们可以很轻松地借助各种模态，包括但不仅限于视觉、语言、声音等来理解和感知这个世界。现如今，随着 Transformer 等关键技术的提出，以往看似独立的各个方向也逐渐紧密地联结到一起，组成了“多模态”的概念。

今天，我们主要围绕Foundational Models，即基础模型这个概念，向大家全面阐述一个崭新的视觉系统。例如，通过 SAM，我们可以轻松地通过点或框的提示来分割特定对象，而无需重新训练；通过指定图像或视频场景中感兴趣的区域，我们可以与模型进行多轮针对式的交互式对话；再如李飞飞团队最新展示的科研成果所示的那样，我们可以轻松地通过语言指令来操作机器人的行为。
在这里插入图片描述

该术语首次由Bommasani等人在《Stanford Institute for Human-Centered AI》中引入。基础模型定义为“通过自监督或半监督方式在大规模数据上训练的模型，可以适应其它多个下游任务”。

具体地，我们将一起讨论一些典型的架构设计，这些设计结合了不同的模态信息，包括视觉、文本、音频；此外，我们还将着重讨论不同的训练目标，如对比式学习和生成式学习。随后，关于一些主流的预训练数据集、微调机制以及常见的提示模式，我们也将逐一介绍。

最后，希望通过今天的学习让大家对基础模型在计算机视觉领域的发展情况，特别是在大规模训练和不同任务之间的适应性方面的最新进展有一个大致的认知。共勉。

1.背景介绍

近年来，基础模型取得了显著的成功，特别是通过大型语言模型（LLMs），主要归因于数据和模型规模的大幅扩展。例如，像GPT-3这样的十亿参数模型已成功用于零/少样本学习，而无需大量的任务特定数据或模型参数更新。与此同时，有5400亿参数的Pathways Language Model（PaLM）在许多领域展现了先进的能力，包括语言理解、生成、推理和与代码相关的任务。

反观视觉领域，诸如CLIP这样的预训练视觉语言模型在不同的下游视觉任务上展现了强大的零样本泛化性能。这些模型通常使用从网络收集的数百上千万图像-文本对进行训练，并提供具有泛化和迁移能力的表示。因此，只需通过简单的自然语言描述和提示，这些预训练的基础模型完全被应用到下游任务，例如使用精心设计的提示进行零样本分类。
在这里插入图片描述

除了此类大型视觉语言基础模型外，一些研究工作也致力于开发可以通过视觉输入提示的大型基础模型。例如，最近 META 推出的 SAM 能够执行与类别无关的分割，给定图像和视觉提示（如框、点或蒙版），指定要在图像中分割的内容。这样的模型可以轻松适应特定的下游任务，如医学图像分割、视频对象分割、机器人技术和遥感等。

当然，我们同样可以将多种模态一起串起来，组成更有意思的管道，如RAM+Grounding-DINO+SAM:
在这里插入图片描述
这里我们用 RAM 提取了图像的语义标签，再通过将标签输入到 Grounding-DINO 中进行开放世界检测，最后再通过将检测作为 SAM 的提示分割一切。目前视觉基础大模型可以粗略的归为三类：

textually prompted models, e.g., contrastive, generative, hybrid, and conversational;
visually prompted models, e.g., SAM, SegGPT;
heterogeneous modalities-based models, e.g., ImageBind, Valley.

1.1基础架构

在这里插入图片描述

双编码器架构：其中，独立的编码器用于处理视觉和文本模态，这些编码器的输出随后通过目标函数进行优化。
融合架构：包括一个额外的融合编码器，它获取由视觉和文本编码器生成的表示，并学习融合表示。
编码器-解码器架构：由基于编码器-解码器的语言模型和视觉编码器共同组成。
自适应 LLM 架构：利用大型语言模型（LLM）作为其核心组件，并采用视觉编码器将图像转换为与 LLM 兼容的格式（模态对齐）。

1.2目标函数

1.2.1对比式学习

为了从无标签的图像-文本数据中学习，CLIP 中使用了简单的图像-文本对比（ITC）损失来通过学习正确的图像-文本配对来学习表示。此外还有图像-文本匹配（ITM）损失，以及包括简单对比式学习表示（SimCLR）和 ITC 损失的变体（如 FILIP Loss、TPC Loss、RWA、MITC、UniCL、RWC 损失）等其他对比损失。
在这里插入图片描述

1.2.2生成式学习

生成目标包括以下几种典型的损失：
在这里插入图片描述
以及 Flamingo Loss、Prefix Language Modeling, PrefixML等。从上述公式我们也可以很容易看出，生成式 AI 本质还是条件概率模型，如 Cap 损失便是根据上一个已知 token 或图像来预测下一个 token。

1.3预训练

1.3.1预训练数据集

如上所述，现代视觉-语言基础模型的核心是大规模数据，大致可分为几类：

图像-文本数据：例如CLIP使用的WebImageText等，这些数据通常从网络抓取，并经过过滤过程删除噪声、无用或有害的数据点。
部分伪标签数据：由于大规模训练数据在网络上不可用，收集这些数据也很昂贵，因此可以使用一个好的教师将图像-文本数据集转换为掩码-描述数据集，如GLIP和SA-1B等。
数据集组合：有些工作直接将基准视觉数据集组合使用，这些作品组合了具有图像-文本对的数据集，如字幕和视觉问题回答等。一些工作还使用了非图像-文本数据集，并使用基于模板的提示工程将标签转换为描述。

1.3.2微调

微调主要用于三个基本设置：

提高模型在特定任务上的性能（例如开放世界物体检测，Grounding-DINO）;
提高模型在某一特定能力上的性能（例如视觉定位

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/897872