当前位置:   article > 正文

大模型日报|今日必读的7篇大模型论文_文本和大模型 论文

文本和大模型 论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.IsoBench:基于同构表示的多模态基础模型基准测试**

当前,基础模型在仅使用文本或同时使用图像和文本输入时,可以表现出令人印象深刻的能力。但是,它们的能力会随着输入模态的不同而改变吗?

来自杜克大学、南加州大学的研究团队提出了一个基准数据集 IsoBench,其中包含数学、科学、算法和游戏四大领域的问题。每个示例都有多种同构输入表示,如视觉、文本和数学表示。IsoBench 提供细粒度的反馈,从而诊断由表示形式造成的性能差距。

研究团队表示,在各种基础模型中,在同一问题上,模型对文本表示形式的偏好是一致的。最突出的是,在对所有 IsoBench 问题进行评估时,当输入图片而不是文本时,Claude-3 Opus 的性能要差 28.7 分,GPT-4 Turbo 要差 18.7 分,Gemini Pro 要差 14.9 分。此外,研究团队也介绍了两种提示技术——IsoCombination 和 IsoScratchPad,这两种技术通过考虑不同输入表述的组合和转换来提高模型性能。

论文链接:
https://arxiv.org/abs/2404.01266

2.卡内基梅隆大学、Meta新研究:使用“图生文”评估“文生视觉”

尽管生成式人工智能领域取得了重大进展,但由于缺乏有效的衡量标准和标准化基准,综合评估仍具有挑战性。

为此,来自卡内基梅隆大学和 Meta 的研究团队提出了 VQAScore,使用视觉问答(VQA)模型,通过计算“此图是否显示文本?”这类问题的“是”的概率来产生对齐分数。尽管 VQAScore 比现有技术更简单,但使用现成模型计算的 VQAScore 在 8 个图像-文本对齐基准中都取得了 SOTA。有趣的是,尽管他们只使用图像进行训练,VQAScore 也可以将文本与视频和 3D 模型对齐。

此外,他们还提出了一个更具挑战性的基准——GenAI-Bench,其包含 1600 个组合文本提示,需要解析场景、对象、属性、关系以及比较和逻辑等高阶推理,为 Stable Diffusion、DALL-E 3 和 Gen2 等图像和视频生成模型提供了 15000 多项人类评分。

论文链接:
https://arxiv.org/abs/2404.01291
项目地址:
https://linzhiqiu.github.io/papers/vqascore/

3.首个根据人类审查的安全指令进行微调的开源多语言模型

预训练语言模型是多种人工智能(AI)应用的基础,但其高昂的训练计算成本限制了其普及性。然而,现有模型面临着多语言能力有限、持续预训练会导致灾难性遗忘(而从头开始预训练的计算成本又很高),以及是否符合人工智能安全和开发法律等各种挑战。

Aurora-M 是一个 15B 参数的多语种开源模型,使用英语、芬兰语、印地语、日语、越南语和代码进行训练。Aurora-M 在 StarCoderPlus 的基础上对 4350 亿个额外 token 进行了持续预训练,总训练 token 数超过了 2 万亿个。它是首个根据人类审查的安全指令进行微调的开源多语言模型。Aurora-M 经过了各种任务和语言的严格评估,在多语言环境下,尤其是在安全评估中,表现出了对灾难性遗忘的鲁棒性和优于替代方案的性能。

论文链接:
https://arxiv.org/abs/2404.00399

4.WavLLM:实现鲁棒性和自适应语音大语言模型

近年来,大型语言模型(LLMs)的发展给自然语言处理领域带来了巨大变化,其范围逐渐扩大到多模态感知和生成。然而,如何有效地将听觉功能集成到 LLM 中,尤其是在不同语境下的泛化和执行复杂的听觉任务方面,提出了巨大的挑战。

来自香港中文大学、微软的研究团队提出了一种具有双编码器和提示感知 LoRA 权重适配器的鲁棒自适应语音大语言模型——WavLLM,其通过两阶段课程学习方法进行了优化。

利用双编码器,研究团队将不同类型的语音信息解耦,利用 Whisper 编码器处理语音的语义内容,利用 WavLLM 编码器捕捉说话者身份的独特特征。在课程学习框架内,WavLLM 首先通过优化混合初级单一任务来建立其基础能力,然后在更复杂的任务(如初级任务的组合)上进行高级多任务训练。

为了提高灵活性并适应不同的任务和指令,研究团队在第二个高级多任务训练阶段引入了提示感知的 LoRA 权重适配器。他们在通用语音基准(包括 ASR、ST、SV、ER 等任务)上验证了所提出的模型,并将其应用于专业数据集,如用于 SQA 的高考英语听力理解集和语音思维链(CoT)评估集。

实验证明,在相同的模型规模下,所提出的模型在一系列语音任务中都达到了 SOTA,在使用 CoT 方法执行复杂任务时表现出了强大的泛化能力。

论文链接:https://arxiv.org/abs/2404.00656

5.SPRIGHT:提高“文生图”模型的空间一致性

当前文本到图像(T2I)模型的主要缺陷之一是无法始终如一地生成忠实于文本提示中指定的空间关系的图像。来自亚利桑那州立大学、Intel Labs 的研究团队及其合作者,对这一局限性进行了全面的研究,同时还开发了能达到 SOTA 的数据集和方法。

研究团队发现当前的视觉语言数据集不能很好地表现空间关系;为了缓解这一瓶颈,他们从 4 个广泛使用的视觉数据集中抽取了 600 万张图片重新进行标注,进而创建了首个以空间为重点的大规模数据集——SPRIGHT。通过三重评估和分析,他们发现 SPRIGHT 在捕捉空间关系方面比现有数据集有很大改进。为了证明 SPRIGHT 的功效,他们只利用了约 0.25% 的 SPRIGHT,就在生成空间精确图像方面提高了 22%,同时还提高了 FID 和 CMMD 分数。

此外,他们发现在包含大量物体的图像上进行训练可大幅提高空间一致性。值得注意的是,通过在小于 500 张图像上进行微调,他们在 T2I-CompBench 上达到了 SOTA,空间分数为 0.2133。

论文链接:https://arxiv.org/abs/2404.01197
项目地址:https://spright-t2i.github.io/

6.清华朱军团队新研究:从单一图像到 3D 生成

近来,根据文本提示或单张图像生成 3D 内容的技术在质量和速度上都取得了显著进步,其主流模式之一是生成一致的多视图图像,然后进行稀疏视图重建。

然而,由于直接变形网格表示以接近目标拓扑结构的挑战,大多数方法在稀疏视图重建过程中学习隐式表示(如 NeRF),并通过后处理提取获得目标网格。虽然隐式表示法能有效模拟丰富的 3D 信息,但其训练通常需要较长的收敛时间。此外,隐式领域的后提取操作还会导致不良的视觉伪影。

为此,来自中国科学院大学、清华大学、西安电子科技大学和生数科技的研究团队,提出了一种新型单图像到 3D 生成框架——FlexiDreamer,其能以端到端的方式重建目标网格。通过利用称为 FlexiCubes 的基于梯度的灵活提取,该方法避免了后处理带来的缺陷,有利于直接获取目标网格。

此外,他们还采用了多分辨率哈希网格编码方案,将编码级别逐步激活到 FlexiCubes 中的隐式字段,从而帮助捕捉几何细节,实现每一步优化。值得注意的是,FlexiDreamer 在单个 NVIDIA A100 GPU 上从单视角图像中恢复密集 3D 结构仅需约 1 分钟,优于之前的方法。

论文链接:
https://arxiv.org/abs/2404.00987
项目地址:
https://flexidreamer.github.io/

7.基于语言模型奖励的视频大型多模态模型直接偏好优化

偏好建模技术,如直接偏好优化(DPO),已被证明能有效提高大型语言模型(LLM)的泛化能力。然而,在涉及视频指令跟随的任务中,提供信息反馈,尤其是检测生成反应中的幻觉,仍然是一项重大挑战。以前的研究已经探索过使用大型多模态模型(LMM)作为奖励模型来指导偏好建模,但它们与相应视频相比,准确评估生成回复的事实性的能力尚未得到证实。

来自卡内基梅隆大学的研究团队及其合作者提出了一种新型框架,该框架利用详细的视频字幕作为视频内容的代理,使语言模型能够将这些信息作为辅助证据,用于对视频问题解答(QA)预测进行评分。该方法与直接将视频帧作为输入的 GPT-4V 模型的奖励机制保持了鲁棒的一致性。

此外,研究还表明,通过 DPO 应用这种定制奖励机制可显著提高视频 LMM 在视频 QA 任务中的性能。

论文链接:https://arxiv.org/abs/2404.01258
GitHub 链接:https://github.com/RifleZhang/LLaVA-Hound-DPO

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/973489
推荐阅读
相关标签
  

闽ICP备14008679号