赞
踩
模型结构分为三部分:
模型训练分为三个阶段:
第一阶段:训练 VL Adapter
第二阶段:联合训练,冻结image encoder,训练llm和vl
语言-多模态联合训练策略。在训练过程中,不仅要进行多模态数据训练,还要在训练中加入很大一部分语言数据。这种方法旨在平衡训练重点,减轻观察到的不利影响。结论如下(1).整合语言数据能显著缓解语言障碍。整合语言数据大大缓解了语言能力的下降,显示了模型语言性能的大幅提升。(2). 纳入语言数据并不会导致多模态性能的显著下降,这表明模型保留了其多模态处理能力。(3). 不同模态的性能与它们各自在训练数据集中的比例密切相关,这证明了两种模态之间的竞争关系。最终,我们选择将语言数据与多模态数据的训练比例大致定为 7:3。这一比例使模型在保持语言能力的同时,还能更好地对多模态数据进行预训练,从而有效平衡语言和多模态能力的发展。
第三阶段:sft,vl adapter、image encoder、llm全是非冻结状态
ps:如果直接用多模态数据训llm,会导致多模态性能指标提高,但是语言指标出现明显下降,可能是因为大多数多模态的语料库过于简单,与语言数据的复杂性和数据分布有显著差异,其次多模态和单模态可能存在部分竞争关系。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。