赞
踩
大家好,今日必读的大模型论文来啦!
1.华为新研究:实现有效的“文生图”个性化和风格化
文生图(T2I)的个性化和风格化目标是指导预先训练好的扩散模型分析用户引入的新概念,并将其纳入预期风格。最近,参数高效微调(PEFT)方法已被广泛采用来解决这一任务,极大地推动了这一领域的发展,但现有的高效微调方法仍难以在 T2I 生成过程中实现有效的个性化和风格化。
为了解决这个问题,华为团队提出了 block-wise LoRA 方法,对不同的 SD 块进行细粒度微调,从而生成忠实于输入 prompts 和目标身份的图像,并具有所需的风格。实验证明了这一方法的有效性。
论文链接:
https://arxiv.org/abs/2403.07500
2.DragAnything:对任何事物进行运动控制
来自快手、浙江大学、新加坡国立大学的研究团队提出了 DragAnything——利用实体表示法(entity representation)实现对可控视频生成中任何对象的运动控制。
与现有的运动控制方法相比,DragAnything 有以下几点优势:
1)首先,在获取其他引导信号(如遮罩、深度图)耗费大量人力物力的情况下,基于轨迹的交互方式对用户更加友好。在交互过程中,用户只需画出一条线(轨迹)即可。
2)其次,该实体表示法是一种开放域嵌入,能够表示任何物体,从而实现对包括背景在内的各种实体的运动控制。
3)最后,该实体表示法允许同时对多个物体进行不同的运动控制。
广泛的实验证明,DragAnything 在 FVD、FID 和用户研究方面达到了 SOTA,特别是在物体运动控制方面,该方法在人类投票方面比以前的方法(如 DragNUWA)高出 26%。
论文链接:
https://arxiv.org/abs/2403.07420
项目地址:
https://weijiawu.github.io/draganything_page/
3.ChatGPT等大模型,修改了多少AI顶会论文?
来自斯坦福、NEC Labs America和加州大学圣芭芭拉分校的研究团队提出了一种估算大型语料库中可能被大型语言模型(LLMs)大幅修改或生成的文本比例的方法。我们的最大似然模型利用专家撰写的参考文本和人工智能(AI)生成的参考文本,在语料库层面准确、高效地检验了真实世界中 LLMs 的使用情况。
研究团队将这种方法应用于 ChatGPT 发布后 AI 会议科学同行评审的案例研究:ICLR 2024、NeurIPS 2023、CoRL 2023 和 EMNLP 2023。研究结果表明,在提交给这些会议的同行评议文本中,有 6.5% 到 16.9% 的文本可能被 LLMs 大幅修改过,即超出了拼写检查或细微的文字更新范围。生成文本的情况有助于深入了解用户行为:在可信度较低、提交时间临近截止日期以及不太可能回应作者反驳的审稿人所提交的审稿中,估计 LLMs 生成文本的比例较高。
研究团队还观察到了生成文本在语料库层面的趋势,这些趋势可能过于微妙,无法在个体层面发现,他们还讨论了这些趋势对同行评审的影响。研究团队呼吁今后开展跨学科工作,研究使用 LLMs 如何改变我们的信息和知识实践。
论文链接:
https://arxiv.org/abs/2403.07183
4.文生图新方法:连接不同语言模型和生成视觉模型
随着文生图扩散模型的引入,文生图技术取得了重大进展。这些模型通常由解释用户提示的语言模型和生成相应图像的视觉模型组成。随着语言和视觉模型在各自领域的不断进步,探索用更先进的对应模型替换文生图扩散模型中的组件大有可为。因此,一个更广泛的研究目标是研究将任何两种不相关的语言和生成视觉模型整合到文本到图像的生成中。
来自香港大学、香港中文大学和香港科技大学的研究团队探讨了这一目标,并提出了一个能将不同的预训练语言模型和生成视觉模型集成到文生图中的 pipeline——LaVi-Bridge。通过利用 LoRA 和适配器,LaVi-Bridge 提供了一种灵活的即插即用方法,无需修改语言和视觉模型的原始权重。它与各种语言模型和生成视觉模型兼容,可适应不同的结构。
在这一框架内,研究团队证明了加入高级模块(如更先进的语言模型或生成式视觉模型)可显著提高文本对齐或图像质量等能力。为了验证 LaVi-Bridge 的有效性,研究团队进行了广泛的评估。
论文链接:
https://arxiv.org/abs/2403.07860
项目网站:
https://shihaozhaozsh.github.io/LaVi-Bridge/
5.利用对比奖励改进基于人类反馈的强化学习(RLHF)
基于人类反馈的强化学习(RLHF)是将大型语言模型(LLMs)与人类偏好相对齐的主流范式。然而,现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型,而奖励模型对各种来源的噪声(如人类标注错误)非常脆弱和敏感,这使 pipeline 变得脆弱。
来自复旦大学、字节跳动和西北大学的研究团队通过在奖励上引入惩罚项 contrastive rewards 来提高奖励模型的有效性。该方法包括两个步骤:第一,离线采样步骤,获取对提示的回应,作为计算基线;第二,使用基线回应计算对比奖励,并将其用于近端策略优化(PPO)步骤。
研究表明,对比奖励使 LLM 能够惩罚奖励的不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准以及减少 PPO 中的差异。通过 GPT 和人类的评估,实证结果表明,对比性奖励可以大幅提高 RLHF,而且这一方法始终优于强基线。
论文链接:
https://arxiv.org/abs/2403.07708
6.KEBench:大型视觉语言模型的知识编辑基准
目前,有关大型视觉语言模型(LVLMs)知识编辑的研究还很少。编辑 LVLMs 面临的挑战是有效整合各种模态(图像和文本),同时确保修改的连贯性和上下文相关性。现有的一个基准有三个指标(Reliability、Locality 和 Generality)来衡量 LVLMs 的知识编辑。然而,该基准在用于评估的生成图像质量方面存在不足,无法评估模型是否有效利用了与相关内容有关的编辑知识。
来自中国科学院大学、中科院和南京大学的研究团队采用不同的数据收集方法构建了一个新的基准——KEBench,并扩展了新的指标(Portability)以进行综合评估。利用多模态知识图谱,图像数据对实体表现出明显的指向性。这种方向性可进一步用于提取与实体相关的知识并形成编辑数据。
研究团队在五个 LVLMs 上进行了不同编辑方法的实验,并深入分析了这些方法对模型的影响。结果揭示了这些方法的优势和不足,希望能为今后的研究提供潜在的途径。
论文链接:
https://arxiv.org/abs/2403.07350
7.FineMath:中文大语言模型的细粒度数学评估基准
为了全面评估大语言模型(LLMs)的数学推理能力,我们需要精心策划涵盖不同数学概念和数学问题的不同难度的评估数据集。
为此,来自天津大学、中国地质大学(武汉)和昆士兰大学的研究团队提出了一个用于评估中文 LLsM 的细粒度数学评估基准数据集——FineMath,它涵盖了小学数学教学中的主要数学概念,并将其进一步划分为 17 类数学应用题,以便深入分析 LLMs 的数学推理能力。所有 17 类数学应用题都根据解题所需的推理步数,人工标注了难度级别。
研究团队在 FineMath 上对各种 LLMs 进行了广泛的实验,发现中文 LLMs 的数学推理能力仍有相当大的提升空间。他们还深入分析了以往被忽视的评价过程和方法,这两个因素极大地影响了模型结果以及对其数学推理能力的理解。
论文链接:
https://arxiv.org/abs/2403.07747
8.通过上下文学习,多模态大语言模型可对癌症病理图像进行分类
医学图像分类需要标注特定任务的数据集,这些数据集用于从头开始训练深度学习网络,或对基础模型进行微调。然而,这一过程对计算和技术要求很高。在语言处理领域,上下文学习提供了另一种选择,即模型从提示中学习,绕过了参数更新的需要。然而,在医学图像分析中,上下文学习仍未得到充分探索。
来自海德堡大学附属医院、德累斯顿工业大学、圣安德鲁斯大学、海德堡大学、亚琛工业大学医院和 University Hospital Dresden的研究团队系统地评估了 GPT-4V 在癌症图像处理中的应用,该模型在结肠直肠癌组织亚型分类、结肠息肉亚型分类和淋巴结切片中的乳腺肿瘤检测这三个重要的癌症组织病理学任务中采用了上下文学习。
研究结果表明,上下文学习足以媲美甚至超越为特定任务训练的专门神经网络,同时只需要极少量的样本。总之,这项研究证明,在非特定领域数据上训练的大型视觉语言模型可以开箱即用,解决组织病理学中的医学图像处理任务。这使没有技术背景的医学专家也能使用通用人工智能模型,特别是在注释数据稀缺的领域。
论文链接:
https://arxiv.org/abs/2403.07407
9.网易、北理新研究:让大模型成为一个好的故事讲述者
讲故事的目的是在有序图像流的基础上产生合理而生动的叙事。图像故事主题的忠实性和故事情节的发散性吸引读者继续阅读。以前的工作通过迭代改进了多种模式的对齐,但最终为图像流生成了简单化的故事情节。
来自北京理工大学和网易公司的研究团队提出了一种新的 pipeline——LLaMS,用于生成体现了表现力和一致性的多模态人类级故事。具体来说,通过充分利用 LLM 中的常识性知识,研究团队首先采用序列数据自动增强策略来增强事实内容的表达,并利用文本推理架构来生成和预测富有表现力的故事。其次,他们提出了用于故事插图生成的 SQ-Adatpter 模块,该模块可保持序列一致性。
人工评估验证了 LLaMS 的优越性。评估结果表明,与之前的 SOTA 方法相比,LLaMS 达到了最先进的讲故事性能,相关性达到 86%,一致性达到 100%。此外,研究团队还进行了消融实验来验证建议的序列数据增强和 SQ-Adapter 的有效性。
论文链接:
https://arxiv.org/abs/2403.07301
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。