当前位置:   article > 正文

deepseek-vl 阅读笔记_calibre调用deepseek

calibre调用deepseek

模型结构分为三部分:

  1. 集成视觉encoder
    1. SAM-B:接收高分辨率的image input(1024*1024),生成64*64*256的特征;
    2. SigLIP:接收低分辨率的image input(384*384),生成 576*1024的特征;
    3. 通过vl adapter 对两个模型的特征进行拼接。
  2. vl adapter:双层混合mlp连接视觉encoder和llm;具体而言,使用不同的单层mlp分别处理高分别率特征(将其插值为96*96*256,随后采用两个步长为2的卷机层,生成一个24*24*1024的特征图,reshape成576*1024)和低分辨率特征(576*1024),然后将这些特征的维度串联(576*2048),通过GeLU激活函数,再通过一个mlp转换到llm的输入空间。
  3. llm:DeepSeek llm(笔者不主攻nlp,这里不再介绍llm,感兴趣可以参考https://github.com/deepseek-ai/DeepSeek-LLM

模型训练分为三个阶段:

第一阶段:训练 VL Adapter

第二阶段:联合训练,冻结image encoder,训练llm和vl                  

语言-多模态联合训练策略。在训练过程中,不仅要进行多模态数据训练,还要在训练中加入很大一部分语言数据。这种方法旨在平衡训练重点,减轻观察到的不利影响。结论如下(1).整合语言数据能显著缓解语言障碍。整合语言数据大大缓解了语言能力的下降,显示了模型语言性能的大幅提升。(2). 纳入语言数据并不会导致多模态性能的显著下降,这表明模型保留了其多模态处理能力。(3). 不同模态的性能与它们各自在训练数据集中的比例密切相关,这证明了两种模态之间的竞争关系。最终,我们选择将语言数据与多模态数据的训练比例大致定为 7:3。这一比例使模型在保持语言能力的同时,还能更好地对多模态数据进行预训练,从而有效平衡语言和多模态能力的发展。

第三阶段:sft,vl adapter、image encoder、llm全是非冻结状态

ps:如果直接用多模态数据训llm,会导致多模态性能指标提高,但是语言指标出现明显下降,可能是因为大多数多模态的语料库过于简单,与语言数据的复杂性和数据分布有显著差异,其次多模态和单模态可能存在部分竞争关系。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/890320
推荐阅读
相关标签
  

闽ICP备14008679号