赞
踩
昨天考完试,晚上把那个讨人厌的项目做了阶段结果给合作者展示去了,然后就看到deepseek发布了vision language的技术报告,于是打算今天上午看看。
很多内容直接翻译自其 DeepSeek-VL,下面的我们指的的是deepseek vl的作者。
我们努力确保我们的数据是多样化的,可扩展的,并广泛覆盖现实世界的场景,包括web截图,pdf, OCR,图表和基于知识的内容(专家知识,教科书),旨在全面表示实际环境。
此外,我们从真实用户场景中创建用例分类法,并相应地构建指令调优数据集。使用该数据集进行的微调实质上改善了模型在实际应用中的用户体验。
我们研究中使用的监督式调优数据集包含多种多模态和语言数据源,包括知名的开源共享gpt4v数据集,如ShareGPT4V (Chen等人,2023)、LAION- gptv (LAION, 2023)、lvisi - instruct4v (Wang等人,2023a)、textOCR-GPT4V (Carter, 2024)、llava16 - gpt4v (Liu等人,2024a)和IconQA (Lu等人,2021)。此外,我们结合了从预训练数据集中提取的部分表格和图表数据,如Ureader (Ye等人,2023)、ScreenQA (Hsiao等人,2022)、Geo170K (Gao等人,2023)和ScienceQA (Lu等人,2022b)。此外,我们整合了从Screen-to-code (Abi, 2024)任务中获得的UI Code数据集。为了提高我们多模态SFT数据的质量,我们还整理了一部分高质量的内部多模态SFT数据,其中一些数据是中文的。我们的内部指令调优数据集经过精心设计,以反映现实世界的使用场景,并涵盖广泛的任务。我们首先从各种在线来源收集GPT-4V和Gemini的各种真实测试用例。然后对这些测试用例进行仔细分析并组织成一个全面的分类法,该分类法包含识别、转换、分析、推理、评估和安全等多个类别,详见表3。这个结构化的分类法作为为每个测试图像选择代表性提示的指南,确保我们的指令调优数据集既实用又与现实世界的应用相关。此外,该分类法还用于构建平衡和全面的评估数据集,这使我们能够有效地评估模型在不同任务和类别中的性能。通过遵循这种系统化的方法,我们确保我们内部多模态SFT数据所涵盖的类别与分类法和实际使用场景的代表性很好地保持一致。
模型架构看代码就好了:https://github.com/deepseek-ai/DeepSeek-VL/tree/main/deepseek_vl/models
考虑到效率和大多数现实世界场景的需求,DeepSeek-VL集成了一个混合视觉编码器,可以在固定的令牌预算内有效地处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这种设计选择确保了模型在各种视觉任务中捕获关键语义和详细信息的能力。训练策略:我们假设一个熟练的视觉语言模型首先应该拥有强大的语言能力。为了确保在预训练期间保留LLM能力,我们研究了一种有效的VL预训练策略,从一开始就整合LLM训练,并仔细管理视觉和语言模式之间观察到的竞争动态。从关注文本开始,我们逐渐调整比例,以促进两种模式的平衡整合。DeepSeek-VL系列(13 b和7B型号)在实际应用中作为视觉语言聊天机器人展示了卓越的用户体验,在相同的模型尺寸下,在广泛的视觉语言基准测试中实现了最先进或具有竞争力的性能,同时在以语言为中心的基准测试中保持了稳健的性能。我们将13 b模型和7B模型都对外开放,在此基础上促进创新。
三步训练,如下图所示。
我们可以对比一下qwen-vl的训练pipeline:
DeepSeek的训练方法和LLaVA相比多了Stage3,和qwen-vl相比在每个stage冻结和训练的模块各有选择。
最初,我们尝试用多模态数据直接训练LLM。然而,我们发现,虽然多模态性能的指标逐渐提高,但语言指标却出现了明显而严重的下降,如图4所示(multimodal: language -100%:0%)。这强调了在LLM的基础上直接进行多模态预训练的内在挑战,揭示了提高多模态能力和保持语言熟练度之间的关键权衡。
我们认为这一现象主要源于两个因素:第一,大多数多模态语料库过于简单,与语言数据的复杂性和分布存在显著差异。其次,在多模态和语言模态之间似乎存在一种竞争动态,导致了LLM中语言能力的灾难性遗忘。
监督微调在这个阶段,我们通过基于指令的微调对预训练的DeepSeek-VL模型进行微调,以增强其遵循指令和参与对话的能力,最终创建交互式DeepSeek-VL- chat模型。
DeepSeek-VL的训练参数设置
训练成本
DeepSeek-VL7B consumed 5 days on a cluster of 64 nodes, each comprising 8 Nvidia A100 GPUs, while
DeepSeek-VL-1B consumed 7 days on a setup involving 16 nodes.
DeepSeek-VL7B 需要512张A100训练5天,debug的DeepSeek-VL-1B需要128张A100训练7天
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。