当前位置:   article > 正文

LaVy: 越南多模态大型语言模型

LaVy: 越南多模态大型语言模型


LaVy: Vietnamese Multimodal Large Language Model

摘要

大规模语言模型(LLMs)和多模态大规模语言模型(MLLMs)以其在复杂推理和语言理解方面的卓越能力在全球范围内引起了轰动。

尽管有关越南大型语言模型的研究成果层出不穷,但多模态方面高质量资源的缺乏限制了越南MLLMs的发展。在本文中,作者首次通过引入LaVy,这是一个先进的越南MLLM,来解决这一问题。同时,作者还介绍了专门用于评估MLLMs在越南视觉语言任务上理解能力的LaVy-Bench基准。

1 Introduction

近年来,大型语言模型(LLM)在各种自然语言处理任务中展示了卓越的能力,证明了它们在复杂推理和语言理解方面的专长。LLM的成功激励研究行人探索多模态大型语言模型(MLLM)的潜力,这些模型结合了视觉信息与文本数据。MLLM在需要理解语言与视觉之间互动的任务中表现出了良好的结果,如图像字幕生成、视觉问答和多模态机器翻译。

尽管在发展越南语LLM方面取得了显著进展,但高质量多模态资源的缺乏阻碍了越南语MLLM的发展。多样化和良好标注的数据集对于训练和评估MLLM至关重要,因为它们依赖于视觉和文本信息的整合,以有效地执行多模态任务。

为了解决这一限制,促进越南语多模态语言理解的研究,作者推出了LaVy,这是越南语首个MLLM,并在越南语视觉语言任务上取得了最先进的表现。LaVy旨在利用越南数据中丰富的视觉和语言信息,使其能够以改进的性能处理各种多模态任务。作者的模型在各项任务上大幅超越了多语言 Baseline mBLIP [1]。通过开发LaVy,作者旨在弥合越南语LLM与MLLM之间的差距,为研究行人和实践者提供了一个强大的工具,以探索越南语背景下语言与视觉的交集。

此外,为了促进越南语MLLM的评价和比较,作者提出了LaVy-Bench基准。这个基准包括一个开放的VQA任务和一个野外测试集,专门设计用于评估MLLM在越南语和野外图像中的视觉语言理解和生成能力。通过建立标准化评估框架,作者旨在推动越南语MLLM的发展和基准测试,促进研究社区内的创新和合作。

在本文中,作者介绍了LaVy和LaVy-Bench基准,作为越南语多模态语言理解领域的重大贡献。作者提供了LaVy架构、数据整理和训练过程的详细描述。此外,作者还介绍了LaVy-Bench基准,讨论了其设计原则、任务组成和评估指标。通过广泛的实验和分析,作者证明了LaVy的有效性以及LaVy-Bench基准在推进越南语MLLM研究中的实用性。

Large Language Model

近期在大型语言模型(LLMs)方面的进展展示了在各种自然语言处理任务中,包括对话、创意写作和问题解决等方面的卓越能力。诸如LLaMA [21, 22]、Mistral [19] 和 Gemma [23] 等模型利用了可扩展的基于Transformer的架构[20]和大规模数据,成为了通用推理任务的基础模型。这些模型展示了令人印象深刻的性能,并在该领域设定了新的基准。

在LLMs的趋势下,一些越南语语言模型,如PhoGPT [22]、Vistral [20],在越南语LLM基准测试和NLP任务中表现出色。

Multimodal Large Language Model
见证了GPT-4 和Gemini Pro Vision 在视觉语言任务中的卓越表现,近期研究一直专注于开发多模态大型语言模型(MLLMs),以实现在不同模态间的统一理解和推理,这建立在大型语言模型(LLMs)的成功基础之上。已经提出了各种方法来将来自多个模态的信息集成到预训练的LLM架构中。例如,Flamingo 和BLIP-2 采用了不同的技术,通过门控注意力或Q-former将视觉标记与冻结的LLMs融合。受到指令调优有效性的启发,LLaVA 和MiniGPT-4 通过视觉指令调优将视觉输入与LLMs对齐,展示了令人印象深刻的结果。另一条活跃的研究路线是研究高效的MLLMs,产生了如Bunny 这样的轻量级模型家族。同时,近期的研究工作在低资源语言的视觉语言任务开发方面开创了先河,例如Peacock。

Architecture

作者的模型采用了LlaVA架构,主要包括以下三个组件:

视觉编码器: 使用Radford2021开发的CLIP-Large模型作为视觉编码器。
MLP投影器: 采用两层多层感知机(MLP)投影器来对齐视觉和语言模态的输出表示。这个投影器确保视觉和文本信息转换到一个共同的空间。
语言模型: 第三个组件是一个大型语言模型,负责生成文本信息,并接收来自MLP投影器的对齐表示。

Data Curation

*** 合成: 鉴于越南图像与LlaVA图像之间的差异,作者从网络上抓取了8,000张各种主题的图像(例如:使用关键词_Anh su kien Viet Nam_的越南活动图像),并提示Gemini Pro Vision为它们生成简洁且详细的描述,以提高LaVy在越南图像上的性能。总共,作者为抓取的图像制作了16,000个越南语描述,并将它们与重写的指令合并。最终,作者为预训练整理了包含708K图像-标题对的越南语数据集,以及为微调准备了166K高质量指令。作者的流程在图1中清晰地展示。

Training Procedure

训练过程分为2步:

预训练: 通过仅优化跨模态投影器,并使用交叉熵损失进行下一个标记预测,将来自预训练视觉编码器的视觉嵌入与来自LLM的文本嵌入对齐。
微调: 作者应用视觉指令调整以充分利用MLLM在不同多模态任务中的能力。作者使用与预训练阶段相同的交叉熵损失,但这次,他们采用低秩适应(LoRA)来训练跨模态投影器和LLM主干。

Experiment

Implementation details

作者使用Vistral 7B作为LLM的 Backbone 网络和CLIP大型视觉编码器。LaVy的训练过程分为两个阶段。在第一阶段,模型使用708k个标题的数据集进行预训练,共1个周期,全局批处理大小为64,学习率为1e-3。在这个阶段,除了MLP层之外,所有模型参数都被冻结。此外,作者不随机打乱数据,而是让模型从非精细数据学习到精细数据。

第二阶段涉及使用指令数据集对模型进行微调。这个阶段同样持续1个周期,全局批处理大小为32,学习率为2e-5。在这个阶段,只有新引入的LoRA(低秩适应)参数是可训练的。

此外,在评估过程中,作者应用贪心解码来生成所有模型的响应 Lin和Chen(2023)。

4.2.1 Zero-shot Visual Question Answering (VQA)

作者评估了模型在OpenViVQA Nguyen等人(2023)开发集上的零样本视觉问答(VQA)性能,该开发集包含3,505个样本。这个数据集挑战了模型对越南图像与自然语言之间关系的理解。此外,作者提出了一种新的自动评估指标,以取代如BLEU Papineni等人(2002年)等旧指标,后者不能准确反映模型在VQA任务中的能力。作者的指标受到LLM-as-a-Judge Zheng等人(2023年)的启发,它利用Gemini Pro来验证问题-答案对生成的响应的准确性。在表1中,可以看出LaVy的零样本VQA性能(33.5%)优于mBLIP-Bloomz-7B(27.9%)和mBLIP-mT0-XL-5B(20.0%)。然而,OpenViVQA数据集包含多种在作者的训练数据集中未出现的问题类型,例如OCR,这使得这个测试集对作者的模型来说尤其具有挑战性,更不用说作者的训练说明仅包括8,000张越南语抓取图像的描述了。
在这里插入图片描述

4.2.2 In-the-wild benchmark

为了进一步评估模型的理解能力,作者遵循LLaVA基准(野外环境)Liu等人(2023年)的评估方法,重新收集了一组24张不同类型的图片和60个问题,分为3种主要类型:复杂推理、详细描述和对话。所收集的图片和手工制作的问题旨在在各个方面多样化测试集:文化、种族、图像类型…与表2中的mBLIP Baseline 相比,LaVy在所有类型的问题上都明显表现更好:对话(+30%)、详细描述(+64%)和复杂推理(+49%)。总体而言,作者的模型在Gemini Pro上的得分为60.6%。表3中描绘了一些定性测试案例。
在这里插入图片描述
在这里插入图片描述

5 Limitations

作者的模型仍有一些局限性:

尽管LaVy在越南语视觉语言任务上展现出深入的理解,但仍然面临许多挑战,例如:OCR、目标计数…,这是由于这些任务缺乏高质量的标注数据。
此外,与其他MLLMs一样,作者的模型仍然存在幻觉问题,它会生成不相关的信息、冗余的细节或错误信息。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/473360
推荐阅读
相关标签
  

闽ICP备14008679号