大模型日报｜今日必读的 9 篇大模型论文

作者：不正经 | 2024-05-14 15:38:34

踩

在这里插入图片描述
大家好，今日必读的大模型论文来啦！

1.苹果推出开放语言模型 OpenELM

大型语言模型（LLMs）的可重复性和透明度，对于推进开放研究、确保结果的可信性、以及对数据和模型偏差以及潜在风险进行调查，至关重要。

苹果研究团队推出了一种先进的开放语言模型 OpenELM。OpenELM 使用分层缩放策略，在 transformer 模型的每一层中有效地分配参数，从而提高了准确性。例如，在参数预算约为 10 亿的情况下，OpenELM 的准确率比 OLMo 提高了 2.36%，而所需的预训练 token 却减少了 2 倍。

与之前只提供模型权重、推理代码以及在私有数据集上进行预训练的做法不同，OpenELM 包含了在公共可用数据集上对语言模型进行训练和评估的完整框架，包括训练日志、多个检查点和预训练配置。

此外，他们还发布了将模型转换为 MLX 库的代码，从而在苹果设备上进行推理和微调。

论文链接：
https://arxiv.org/abs/2404.14619
GitHub地址：
https://github.com/apple/corenet

2.Google DeepMind 新研究：减轻说服型生成式 AI 的危害

最近，生成式人工智能（AI）系统已经显示出更先进的说服能力，并逐渐渗透到可以影响决策的生活领域。

然而，由于互惠交换和长时间互动的机会，生成式 AI 呈现了一种新的说服风险。这导致人们越来越关注说服型生成式 AI 的危害，以及如何减轻这些危害，从而突出了对说服型生成式 AI 进行系统研究的必要性。目前说服型生成式 AI 的定义不明确，相关的危害也没有得到充分的研究。现有的减轻危害的方法优先考虑说服结果带来的危害，而不是说服过程带来的危害。

在这项研究中，Google DeepMind 团队及其合作者提出了说服型生成式 AI 的定义，并区分了理性说服型生成式 AI 和操纵型生成式 AI（manipulative generative AI），前者依赖于提供相关事实、合理推理或其他形式的可信证据，后者则依赖于利用认知偏差和启发式方法或歪曲信息。

他们还提出了服型生成式 AI 的危害，包括经济、物理、环境、心理、社会文化、政治、隐私的定义和例子。然后，他们提出了一幅导致说服危害的机制图，概述了可用于减轻说服过程危害的方法，包括操纵分类的提示工程和红队。他们未来的工作将使这些缓解措施具有可操作性，并研究不同类型说服机制之间的相互作用。

论文链接：
https://arxiv.org/abs/2404.15058

3.港科大提出 FlashSpeech：高效零样本语音合成

目前，语言模型和扩散模型在大规模零样本语音合成方面取得了显著进展。

然而，这两种方法的生成过程都很慢且计算量很大。使用较低的计算预算进行高效语音合成，达到与之前工作相当的质量，仍然是一个重大挑战。

来自香港科技大学的研究团队及其合作者，提出了一个大规模的零样本语音合成系统——FlashSpeech，与以前的工作相比，它的推理时间大约减少了 5%。FlashSpeech 建立在潜在一致性模型的基础上，并应用了一种新的对抗一致性训练方法，无需预先训练的扩散模型作为“教师”，即可从头开始训练。此外，新的韵律生成器模块增强了韵律的多样性，使语音的节奏听起来更加自然。

FlashSpeech 的生成过程可以通过一个或两个采样步骤高效地完成，同时保持高音频质量和与零样本语音生成音频提示的高相似性。实验结果证明 FlashSpeech 达到了 SOTA。值得注意的是，FlashSpeech 可以比其他零样本语音合成系统快 20 倍，同时在语音质量和相似性方面保持相当的性能。此外，FlashSpeech 通过有效地执行语音转换、语音编辑和多样化的语音采样等任务展示了其通用性。

论文链接：
https://arxiv.org/abs/2404.14700
GitHub 地址：
https://flashspeech.github.io/

4.多模态语言模型 Pegasus-v1 技术报告

Twelve Labs 团队推出了一种多模态语言模型 Pegasus-1，专门用于通过自然语言理解视频内容和进行交互。

Pegasus-1 的设计目的是应对视频数据带来的独特挑战，如解读时空信息，从而提供不同长度的细微视频内容理解。该技术报告概述了 Pegasus-1 的架构、训练策略及其在视频对话、零样本视频问题解答和视频摘要等基准测试中的表现。他们还探讨了 Pegasus-1 的定性特征，展示了它的能力和局限性。

论文链接：
https://arxiv.org/abs/2404.14687

5.SnapKV：免微调，将 KV 缓存的大小降到最低

目前，大型语言模型（LLMs）在处理大量上下文方面取得了显著进展，其中键值（KV）缓存在提高其性能方面发挥了重要作用。然而，随着输入长度的增加，KV 缓存的增长给内存和时间效率带来了挑战。

为此，来自伊利诺伊大学厄巴纳香槟分校、Cohere 和普林斯顿大学的研究团队，提出了一种创新的免微调方法 SnapKV，有效地将 KV 缓存的大小降到最低，同时在实际应用中产生了相当的性能。

他们发现，该模型中的每个注意力头在生成过程中会持续关注特定的提示注意力特征。同时，这种鲁棒性模式可以从位于提示语末尾的“observation”窗口中获得。利用这一洞察力，SnapKV 通过为每个注意力头选择重要的 KV 位置集群来自动压缩 KV 缓存。

该方法大大减少了处理长输入序列时不断增加的计算开销和内存占用。具体来说，在处理 16K token 输入时，SnapKV 实现了稳定的解码速度，与基线相比，生成速度提高了 3.6 倍，内存效率提高了 8.2 倍。同时，在处理 16 个长序列数据集时，它的性能与基线模型相当。此外，只需稍作改动，SnapKV 就可以在单个 A100-80GB GPU 上实现处理多达 380K 的上下文 token，在 Needle-in-a-Haystack 测试中表现出的准确率下降可以忽略不计。进一步的综合研究表明，SnapKV 具有实际应用的潜力。

论文链接：
https://arxiv.org/abs/2404.14469

6.清华团队新研究：通过提示工程在 LLM 中整合化学知识

该论文介绍了一项关于整合提示工程中特定领域知识来提高科学领域大型语言模型（LLM）性能的研究。

来自清华大学和牛津大学的研究团队设计了一个基准数据集，包括了小分子错综复杂的物理化学特性，在药理学上的可药性，以及酶和晶体材料的功能属性，强调了其在生物和化学领域的相关性和适用性。通过对麦克米伦催化剂、紫杉醇和氧化钴锂等复杂材料的案例研究，证明了该方法的有效性。

研究结果表明，领域知识提示可以引导 LLM 生成更准确、更相关的回答，突出了 LLM 在配备特定领域提示后作为科学发现和创新的强大工具的潜力。研究还讨论了特定领域提示工程开发的局限性和未来方向。

论文链接：
https://arxiv.org/abs/2404.14467

7.微软、清华团队提出多头混合专家 MH-MoE

稀疏混合专家（SMoE）模型可在不显著增加训练和推理成本的情况下扩展模型容量，但存在以下两个问题：专家激活率低，只有一小部分专家被激活用于优化；缺乏对单个 token 中多个语义概念的细粒度分析能力。

来自微软、清华大学的研究团队提出了多头混合专家（MH-MoE），它采用多头机制将每个 token 分割成多个子 token。然后，这些子 token 被分配给一组不同的专家并由它们并行处理，然后无缝地重新整合为原始 token 形式。多头机制使模型能够集体关注不同专家的各种表征空间的信息，同时显著提高专家激活度，从而加深对上下文的理解并减轻过度拟合。此外，MH-MoE 易于实现，并与其他 SMoE 优化方法解耦，易于与其他 SMoE 模型集成，从而提高性能。

以英语为重点的语言建模、多语言语言建模和掩码多模态建模任务的大量实验，证明了 MH-MoE 的有效性。

论文链接：
https://arxiv.org/abs/2404.15045

8.英伟达提出扩散模型采样新方法 Align Your Steps

扩散模型已成为视觉领域及其他领域先进的生成建模方法。

然而，扩散模型的一个缺点是采样速度慢，需要通过大型神经网络进行多次连续的函数评估。扩散模型的采样可以看作是通过一组离散的噪声水平（即采样时间表）来求解微分方程。过去的研究主要集中于推导高效的求解器，但很少关注如何找到最佳采样时间表，所有文献都依赖于手工制作的启发式方法。

为此，来自英伟达的研究团队提出了一种通用的原则性方法—— Align Your Steps，来优化扩散模型的采样计划，从而获得高质量的输出。他们利用随机微积分的方法，找到了针对不同求解器的扩散模型和数据集的最佳时间表。他们使用各种不同的采样器，在多个图像、视频和 2D 玩具数据合成基准上评估了新方法，并观察到该优化时间表优于以前的手工制作时间表。他们的方法展示了采样计划优化尤其是在几步合成机制中尚未开发的潜力。

论文链接：
https://arxiv.org/abs/2404.14507
项目地址：
https://research.nvidia.com/labs/toronto-ai/AlignYourSteps/

9.ID-Animator：零样本身份保持人类视频生成器

生成具有指定身份（ID）的高保真人类视频，已引起内容生成领域的极大关注。然而，现有技术很难在训练效率和身份保持（identity preservation）之间取得平衡，要么需要进行繁琐的逐个微调，要么通常会在视频生成过程中遗漏 ID 细节。

来自中国科学技术大学、中国科学院和腾讯的研究团队，提出了一种零样本人类视频生成方法 ID-Animator，它可以在给定单个参考面部图像的情况下，无需进一步训练即可生成个性化视频。ID-Animator 继承了现有的基于扩散的视频生成骨干技术，并配备了人脸适配器，可从可学习的面部潜在查询中编码与 ID 相关的嵌入。

为了便于在视频生成过程中提取 ID 信息，他们提出了一个面向 ID 的数据集构建管道，该管道从构建的面部图像池中整合了解耦人类属性和动作字幕技术。在此基础上，他们进一步设计了一种随机人脸参考训练方法，从而从参考图像中精确捕捉与 ID 相关的嵌入，从而提高该模型在特定 ID 视频生成中的保真度和泛化能力。

大量实验证明，ID-Animator 在生成个性化人类视频方面达到了 SOTA。此外，他们的方法与流行的预训练 T2V 模型（如 animatediff 和各种社区骨干模型）高度兼容，在需要保持 ID 的视频生成实际应用中具有很高的可扩展性。

论文链接：
https://arxiv.org/abs/2404.15275
GitHub 地址：
https://github.com/ID-Animator/ID-Animator

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/569049