大模型日报｜今日必读的8篇大模型论文

作者：我家自动化 | 2024-05-14 15:39:52

踩

大模型日报｜今日必读的8篇大模型论文

在这里插入图片描述
大家好，今日必读的大模型论文来啦！

1.清华团队推出Eurus：用偏好树推进LLM推理通才的发展

来自清华大学、伊利诺伊大学香槟分校和面壁智能的研究团队及其合作者，提出了一套为推理而优化的大型语言模型（LLM）——Eurus。据介绍，经过对 Mistral-7B 和 CodeLlama-70B 的微调，Eurus 模型在一系列涵盖数学、代码生成和逻辑推理问题的基准测试中，取得了开源模型中的 SOTA。

值得注意的是，Eurus-70B 通过涵盖 5 项任务的 12 个测试的综合基准测试，在推理方面击败了 GPT-3.5 Turbo，并在 LeetCode 和 TheoremQA 两项基准测试中分别取得了 33.3% 和 32.6% 的 pass@1 准确率，以超过 13.3% 的优势超越了现有的开源模型。

Eurus 的强大性能主要归功于 UltraInteract，这是一个新近收集的大规模、高质量对齐数据集，专为复杂推理任务而设计。UltraInteract 可用于监督微调和偏好学习。对于每条指令，它都包含一棵偏好树，其中包括：（1）统一格式的具有不同规划策略的推理链；（2）与环境和评论的多轮交互轨迹；以及（3）促进偏好学习的配对数据。

论文链接：
https://arxiv.org/abs/2404.02078
GitHub 地址：
https://github.com/OpenBMB/Eurus

2.综述：基于大型语言模型的游戏agent

游戏智能体（agent）的开发在推动通用人工智能（AGI）的发展中起着至关重要的作用。大型语言模型（LLM）及多模态大型语言模型（MLLM）的进步为游戏 agent 的发展提供了前所未有的机遇，使其在复杂的计算机游戏环境中具备类似人类的决策能力。

来自乔治亚理工学院和 Cisco Research 的研究团队从整体角度全面概述了基于 LLM 的游戏 agent。首先，他们介绍了基于 LLM 的游戏 agent 的概念架构，其核心是六个基本功能组件：感知、记忆、思维、角色扮演、行动和学习。其次，他们调查了现有文献中具有代表性的基于 LLM 的游戏 agent 的方法和适应灵活性，涉及六种类型的游戏，包括冒险游戏、交流游戏、竞争游戏、合作游戏、模拟游戏以及制作和探索游戏。最后，他们对这一新兴领域的未来研究和发展方向进行了展望。

论文地址：
https://arxiv.org/abs/2404.02039
GitHub 链接：
https://github.com/git-disl/awesome-LLM-game-agent-papers

3.大型语言模型是“超人”的化学家吗？

大型语言模型（LLMs）由于能够处理人类语言并执行未经明确训练的任务而受到广泛关注。这与化学科学息息相关，因为化学科学面临着数据集小而多样的问题，而这些数据集往往是文本形式的。然而，我们对 LLMs 化学推理能力的系统了解仍然非常有限，而这正是改进模型和减少潜在危害所必需的。

为此，来自耶拿大学的研究团队及其合作者，提出了一个自动化框架 ChemBench，旨在对照人类化学家的专业知识，严格评估最先进 LLM 的化学知识和推理能力。

他们为化学科学的众多子领域策划了 7000 多个问答对，评估了领先的开放式和闭源 LLM，发现最佳模型的平均表现优于最优秀的人类化学家。然而，这些模型在一些对人类专家来说很容易完成的化学推理任务上却表现较差，并提供了过于自信和误导性的预测，比如关于化学品安全概况的预测。

这些发现表明，即尽管 LLM 在化学任务中表现出了非凡的能力，但进一步的研究对于提高其在化学科学中的安全性和实用性至关重要。

论文链接：
https://arxiv.org/abs/2404.01475

4.综述：用于建筑设计的生成式人工智能

生成式人工智能（AI）开创了建筑设计的新方法范式，极大地拓展了设计过程的创新潜力和效率。

来自天津大学和北陆先端科学技术大学院大学的研究团队，探讨了生成式人工智能技术在建筑设计中的广泛应用，这一趋势得益于深度生成模型的快速发展。

他们全面回顾了生成式人工智能和大规模模型的基本原理，并重点介绍了在生成 2D 图像、视频和 3D 模型方面的应用。此外，通过回顾 2020 年以来的最新文献，他们仔细研究了生成式人工智能技术在建筑设计不同阶段（从生成最初的建筑 3D 形式到生成最终的建筑图像）的影响。

事实证明，这些研究案例和方法不仅大大提高了效率和创新能力，还对传统的建筑创意边界提出了挑战。最后，他们指出了设计创新的新方向，并阐明了在建筑领域应用生成式人工智能的新轨迹。

论文链接：
https://arxiv.org/abs/2404.01335

5.综述：多模态大型语言/视觉模型

近来，大型语言模型（LLMs）成为了研究和应用的焦点，其强大的理解和生成文本的能力使其具有类似人类的水平。多模式大型语言模型（MM-LLM）将 LLMs 的能力扩展到除文本外还能处理图像、视频和音频信息。这催生了文本到视频生成、图像字幕、文本到语音等应用领域，可以通过改装具有多模态功能的 LLM 或从头开始构建 MM-LLM 来实现。

来自都柏林城市大学的研究团队回顾了具有多模态功能的 LLM 以及最新 MM-LLM 的现状。它涵盖了 LLM 的历史发展，尤其是 OpenAI 的 GPT 系列和 Google 的 BERT 等基于 transformer 的架构所带来的进步，以及注意力机制在提高模型性能方面的作用。

该论文不仅涵盖了主要和最重要的 LLMs 和 MM-LLMs，还涵盖了模型 tuning 技术，包括微调和提示工程，这些技术可针对特定任务或领域定制预训练模型。

此外，为强调负责任的人工智能开发和部署的重要性，他们还分析了伦理方面的考虑和挑战，如数据偏差和模型滥用。最后，他们讨论了开源模型与专有模型在人工智能研究中的影响。

论文链接：
https://arxiv.org/abs/2404.01322

6.DiffAgent：利用大型语言模型快速准确地选择文生图API

文本到图像（T2I）生成模型吸引了大量关注，并在学术研究内外得到了广泛应用。然而，这种多样性给选择最合适的模型和参数带来了巨大挑战，这一过程通常需要无数次试验。

来自上海 AI Lab 的研究团队及其合作者推出了智能体 DiffAgent，旨在通过 API 调用在数秒内筛选出准确的选择。DiffAgent 利用新颖的两阶段训练框架 SFTA，使其能够根据人类偏好准确调整 T2I API 响应与用户输入。为了训练和评估 DiffAgent 的能力，他们推出了一个综合数据集——DABench，其包含来自社区的大量 T2I API。评估结果表明，DiffAgent 不仅在识别适当的 T2I API 方面表现出色，而且还凸显了 SFTA 培训框架的有效性。

论文链接：
https://arxiv.org/abs/2404.01342
GitHub 链接：
https://github.com/OpenGVLab/DiffAgent

7.CameraCtrl：启用文生视频的相机控制功能

可控性在视频生成中起着至关重要的作用，因为它允许用户创建所需的内容。

然而，现有模型在很大程度上忽视了对摄像机姿态的精确控制，而摄像机姿能够表达更深层次叙事细微差别的电影语言。

为了解决这个问题，来自香港中文大学、上海 AI Lab 和斯坦福大学的研究团队引入了 CameraCtrl，为文本到视频（T2V）模型提供精确的摄像机姿态控制。在精确设定摄像机轨迹参数后，即插即用的摄像机模块就可以在 T2V 模型上进行训练，而无需触及其他模型。此外，还对各种数据集的效果进行了综合研究，结果表明，具有不同摄像头分布和相似外观的视频确实提高了可控性和泛化能力。

实验结果表明，CameraCtrl 能有效实现精确的领域自适应摄像机控制，这标志着在通过文本和摄像机姿势输入实现动态和定制化视频叙事方面又向前迈进了一步。

论文链接：
https://arxiv.org/abs/2404.02101
项目地址：
https://hehao13.github.io/projects-CameraCtrl/

8.Octopus v2：用于超级智能体的端侧语言模型

语言模型在各种软件应用，尤其是与自动工作流程相关的任务中显示出了有效性。这些模型具有调用函数的关键能力，这对创建AI智能体至关重要。尽管云环境中的大规模语言模型性能很高，但它们往往与隐私和成本问题相关。

目前，用于函数调用的设备上模型面临着延迟和准确性的问题。来自斯坦福大学的研究团队提出了一种新方法Octopus v2，它能使一个拥有 20 亿个参数的设备在准确性和延迟方面超越 GPT-4 的性能，并将上下文长度减少 95%。与采用基于 RAG 的函数调用机制的 Llama-7B 相比，这种方法将延迟提高了 35 倍，并且将延迟降低到了适合在生产环境中的各种边缘设备上部署的水平，符合实际应用的性能要求。

论文链接：
https://arxiv.org/abs/2404.01744

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/569055