赞
踩
本文是关于论文《MM-LLMs: Recent Advances in MultiModal Large Language Models》的简要介绍。大型语言模型沿着多模态方向发展成为目前越来越受关注的研究领域,这篇论文从方法角度整理了2022年到2024年2月的经典多模态大语言模型,并从技术角度给出了一些前瞻思路。本文主要按照作者提供的框架和案例进行介绍。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
题目:MM-LLMs: Recent Advances in MultiModal Large Language Models
论文:https://arxiv.org/pdf/2401.13601.pdf?trk=public_post_comment-text
项目主页:https://mm-llms.github.io/
论文引用:
@article{zhang2024mm,
title={Mm-llms: Recent advances in multimodal large language models},
author={Zhang, Duzhen and Yu, Yahan and Li, Chenxing and Dong, Jiahua and Su, Dan and Chu, Chenhui and Yu, Dong},
journal={arXiv preprint arXiv:2401.13601},
year={2024}
}
GPT诞生以来,一向以强大的自然语言处理能力而著称,人们试着将大型语言模型(Large Language Models,LLM)的强大推理和生成能力在除文本以外的模态数据上应用起来。例如图像、视频、音频、3D点云等。得益于各个模态的数据都已经有各自的高质量的编码器和生成器,再加上LLM的加持,可以实现很多有趣的任务,多模态的大语言模型(Multi-modal Large Language Models, MM-LLMs)由此而来。
多模态大语言模型的关键是如何将各个模态的模型(例如图像编码器,视频生成器等)与大语言模型结合起来,因为不同的模态是原生的不兼容的。这就涉及到多模态领域中的一个概念:对齐(Alignment)。这就对MM-LLMs框架提出了要求,一方面,各个模态的编码器、生成器所使用的编码,要和大语言模型中所使用的编码(也就是token)进行对齐,另一方面,在人机交互时,需要模型的功能能够对齐用户的意图,而非答非所问。
自从GPT-4和Gemini诞生后,多模态大语言模型吸引众多研究者加入;早期框架还是致力于用LLM辅助特定模态的理解,例如LLaVA、BLIP-2、Video-ChatGPT等;后续陆陆续续有研究关注多模态生成任务,例如MiniGPT-5、SpeechGPT、AudioPaLM等;近期最新成果关注和人类类似的从任意到任意(Any-to-Any)模态的交互,例如AudioGPT、NExt-GPT等。很多公司和机构高也在布局大语言模型以服务于特定的业务需要。
目前的多模态大语言模型采取并联式的框架,以NExtGPT为例,多模态数据送到各自模态的编码器后得到各自模态的编码,这些编码通过各自模态的输入转换器(Input Projection)后得到对齐到大语言模型的文本编码,经过大语言模型处理后的输出,经过限定模态的输出转换器(Output Projection)以及生成器得到多模态的数据。通常的,Input Projection和Output Projection是需要训练的,这些模块占整个框架的参数量的比例很小,通常在2%左右。其他模块多是现成的经过大量数据训练过的,可以固定参数,也可以跟随Projection模块一起微调。
各个模态的编码器用于将特定模态的数据转换成编码,现在已经有很多成熟的编码器可以解决这些问题,除了文本模态之外:
用于模态对齐,将多模态数据编码对齐到文本空间,也是多模态融合的关键,这一模块是需要训练的。通常的转换器可以采取的形式有:
这一部分可以独自的进行文本到文本的转换,当有其他模态的数据加入时,大型语言模型会将这些模态的数据也认定为一种文本,输出的模态也是以文本的形式,交给后续解码器处理。常见的用于多模态的大语言模型有ChatGLM、PaLM、Vicuna等。
用于将大语言模型的输出转换成多模态生成器空间中所使用的输入编码。与输入转换器形态类似。
针对不同模态,目前已经有比较成熟的生成解决方案,可以直接拿来使用。例如
根据训练数据类型的不同,目前的多模态大语言模型通常采用两种训练框架,MMPT和MMIT。前者使用X-文本对形式的输入数据,这里X就是各种模态的输入。例如图像-文本、视频-文本、语音-文本;MMIT使用指令形式的数据,将有监督微调(SFT)和强化学习结合起来。
分类。作者根据设计思路将多模态大语言模型按照功能和设计进行分类。
目前的大语言模型表现出以下趋势:
作者以视觉-语言任务为例,提供了多模态大语言模型在18个benchmark上的性能:
并且有一些发现:
作者提供了后续多模态大模型发展的一些方向:
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
笔者自知才疏学浅,难免疏漏与谬误,若有高见,请不吝赐教,笔者将不胜感激!
softargmax
2024年3月27日
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。