当前位置:   article > 正文

大模型日报|今日必读的 7 篇大模型论文

大模型日报|今日必读的 7 篇大模型论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.谷歌274页论文:高级人工智能助手的伦理

来自 Google DeepMind、Google Research 的研究团队及其合作者,重点探讨了高级人工智能助理带来的机遇以及伦理和社会风险。

他们将高级人工智能助理定义为具有自然语言界面的 AI 智能体(artificial agents),其功能是根据用户的期望,代表用户在一个或多个领域规划和执行一系列行动。

他们首先从技术本身入手,概述了人工智能助手、其技术基础和潜在应用范围;然后,探讨了与人工智能价值一致性、幸福感、安全性和恶意使用有关的问题,他们将进一步扩大调查范围,更详细地考虑高级人工智能助手与个人用户之间的关系,探讨操纵和说服、拟人化、信任和隐私等话题,有了这些分析之后,他们将考虑在社会范围内部署高级人工智能助手,重点关注合作、公平与获取、错误信息、经济影响、环境以及如何最好地评估高级人工智能助手;最后,他们为研究人员、开发人员、政策制定者和公共利益相关者提供了一系列建议。

分析表明,高级人工智能助手很可能会对我们的个人和集体生活产生深远影响。他们认为,要使人工智能助手有益并与人类价值观一致,就必须对用户、开发者和社会之间相互竞争的诉求和需求做出适当回应。

人工智能助手所具备的功能,如更强的智能体能力、自然语言交互能力和高度个性化,对用户特别有帮助。然而,这些特点也使人们容易受到技术的不当影响,因此需要强有力的保障措施。

此外,当人工智能助手被大规模部署时,它们之间的互动所产生的连锁效应以及它们对更广泛的机构和社会进程的整体影响问题就会凸显出来。这些动态可能需要技术和政策干预,从而促进有益的合作,实现广泛、包容和公平的成果。

最后,鉴于目前的人工智能评估主要侧重于人工智能系统的技术组成部分,因此必须投资于人工智能助手的整体社会技术评估,包括人与人工智能的互动、多智能体和社会层面的研究,从而支持该领域负责任的决策和部署。

相关链接:
https://deepmind.google/discover/blog/the-ethics-of-advanced-ai-assistants/

2.TextSquare:扩大以文本为中心的视觉教学指令微调

随着多模态大语言模型(MLLMs)的发展,以文本为中心的可视化问题解答(VQA)取得了长足的进步,但开源模型仍无法与 GPT4V 和 Gemini 等领先模型相媲美,部分原因在于缺乏大量高质量的微调数据。

为此,来自字节跳动、华东师范大学和华中科技大学的研究团队提出了一种创建海量、高质量指令微调数据集 Square-10M 的新方法——TextSquare,该数据集使用闭源 MLLM 生成,数据构建过程 Square 由自问、回答、推理和评估四个步骤组成。

他们对 Square-10M 的实验得出了三个重要发现:(1)TextSquare 大大超越了之前开源的以文本为中心的 MLLM,并在 OCRBench 上树立了新的标准(62.2%)。在 10 个以文本为中心的基准测试中,它有 6 个甚至超过了 GPT4V 和 Gemini 等模型。(2)他们证明了 VQA 推理数据在为特定问题提供全面的上下文洞察力方面的关键作用。这不仅提高了准确性,还大大减少了幻觉。具体来说,TextSquare 在四个通用 VQA 和幻觉评估数据集上的平均得分率为 75.1%,超过了以前的模型。(3)值得注意的是,在扩展以文本为中心的 VQA 数据集时观察到的现象揭示了一个生动的模式:指令微调数据量的指数增长与模型性能的提高成正比,从而验证了数据集扩展的必要性和 Square-10M 的高质量。

论文链接:
https://arxiv.org/abs/2404.12803

3.PhysDreamer:通过视频生成,与 3D 物体进行基于物理交互

逼真的物体交互对于创造身临其境的虚拟体验至关重要,然而如何根据新颖的交互合成逼真的 3D 物体动力学仍是一项重大挑战。

与无条件或文本条件动态生成不同,动作条件动态生成需要感知物体的物理材料属性,并根据这些属性(如物体刚度)进行 3D 运动预测。然而,由于缺乏真实材料数据,估计物理材料属性是一个未决问题,因为测量真实物体的这些属性非常困难。

来自麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学的研究团队提出了一种基于物理学的方法 PhysDreamer ,它利用视频生成模型学习到的物体动力学先验,赋予静态 3D 物体以交互式动态效果。通过提炼这些先验,PhysDreamer 能够合成逼真的物体对外力或智能体操作等新型交互的反应。

他们在各种弹性物体示例中演示了这种方法,并通过用户研究评估了合成交互的逼真度。PhysDreamer 通过使静态 3D 物体以物理上可信的方式对交互刺激做出动态响应,向更吸引人、更逼真的虚拟体验迈出了一步。

论文链接:
https://arxiv.org/abs/2404.13026
项目地址:
https://physdreamer.github.io/

4.Groma:具有接地和细粒度视觉感知能力的 MLLM

来自香港大学和字节跳动的研究团队提出了一种多模态大语言模型(MLLM)—— Groma,它具有接地和细粒度的视觉感知能力。

除了整体图像理解,Groma 还擅长区域级任务,如区域字幕和视觉接地。这种能力建立在局部视觉 tokenization 机制的基础上,即把图像输入分解成感兴趣的区域,然后编码成区域 tokens。通过将区域 tokens 整合到用户指令和模型响应中,使 Groma 能够无缝地理解用户指定的区域输入,并将其文本输出与图像接地。

此外,为了增强 Groma 的接地对话能力,他们利用强大的 GPT-4V 和视觉提示技术策划了一个视觉接地指令数据集。与依赖语言模型或外部模块进行本地化的 MLLM 相比,Groma 在标准指代和接地基准测试中始终表现出色,凸显了将本地化嵌入图像 tokenization 的优势。

论文链接:
https://arxiv.org/abs/2404.13013
项目地址:
https://groma-mllm.github.io/

5.清北新研究:用于网络领域的大模型:工作流程、进展与挑战

网络领域的特点是高度复杂和快速迭代,需要丰富的专业知识来完成网络任务,包括网络设计、诊断、配置和安全。

这些任务本身的复杂性,再加上网络技术和协议的不断变化,给基于机器学习的传统方法带来了巨大障碍。这些方法需要大量的标注数据、特定领域的特征工程和频繁的再训练以适应新的场景,因此往往难以实现网络中复杂任务的通用化和自动化。

然而,最近出现的大型语言模型(LLM)为解决这些挑战带来了新的可能性。大型语言模型在自然语言理解、生成和推理方面表现出了非凡的能力。这些在大量数据基础上训练出来的模型可以为网络领域带来益处。一些研究人员已经探索了 LLM 在网络领域的应用,并取得了可喜的成果。

通过回顾最新进展,来自清华大学和北京大学的研究团队提出了一个抽象的工作流程,用来描述将 LLM 应用于网络的基本过程。他们分门别类地提出了现有工作的亮点,并详细解释了它们在工作流程的不同阶段是如何运作的。此外,还深入探讨了所遇到的挑战,讨论了潜在的解决方案,并概述了未来的研究前景。他们希望这项调查能为研究人员和从业人员提供真知灼见,促进这一跨学科研究领域的发展。

论文链接:
https://arxiv.org/abs/2404.12901

6.MOVA:让视觉专家混合体适应多模态上下文

作为多模态大语言模型(MLLM)的关键组成部分,视觉编码器的能力在很大程度上影响着 MLLM 对不同图像内容的理解。

尽管一些大规模预训练视觉编码器(如 CLIP 和 DINOv2 中的视觉编码器)带来了可喜的表现,仍然没有一种视觉编码器能够主导对各种图像内容的理解。例如,CLIP 视觉编码器在一般图像理解方面效果突出,但在文档或图表内容方面表现不佳。

为了缓解 CLIP 视觉编码器的偏差,来自 SenseTime、上海 AI Lab 和香港中文大学的研究团队首先深入研究了不同预训练视觉编码器的固有行为,并提出了一种强大而新颖的 MLLM —— MoVA,通过从粗到细的机制自适应地路由和融合特定任务的视觉专家。在粗粒度阶段,他们设计了一种情境感知专家路由策略,可根据用户指令、输入图像和视觉专家的专业知识动态选择最合适的视觉专家。这得益于大语言模型(LLM)强大的模型函数理解能力和专家路由低秩自适应性(LoRA)。在细粒度阶段,他们精心设计了视觉专家混合适配器(MoV-Adapter),从而提取和融合来自不同专家的特定任务知识。

这种从粗到细的范式有效地利用了基于多模态上下文和模型专业知识的专家表征,进一步增强了泛化能力。他们进行了大量实验来评估该方法的有效性,并在各种具有挑战性的多模态基准测试中,MOVA 不需要任何附加功能就达到了 SOTA。

论文链接:
https://arxiv.org/abs/2404.13046
GitHub 地址:
https://github.com/TempleX98/MoVA

7.GenVideo:基于 T2I 扩散模型进行单样本目标图像和形状感知视频编辑

基于扩散模型的视频编辑方法,如果仅仅依靠文字提示进行编辑,会因文字提示的表达能力有限而受到阻碍。因此,将参考目标图像作为可视化指南,从而实现对编辑的精确控制就变得较为理想。此外,当目标图像中对象的形状和大小与源对象不同时,大多数现有方法都难以准确编辑视频。

为了应对这些挑战,来自 Adobe 的研究团队提出了利用目标图像识别 T2I 模型编辑视频的 “GenVideo”。他们的方法可以处理不同形状和大小的目标对象的编辑,同时利用新颖的目标和形状感知 InvEdit 掩码保持编辑的时间一致性。此外,他们还在推理过程中提出了一种新颖的目标图像识别潜噪声校正策略,从而提高编辑的时间一致性。

实验分析表明,GenVideo 能够有效处理现有方法无法做到的对于形状各异的对象的编辑。

论文链接:
https://arxiv.org/abs/2404.12541

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/569071
推荐阅读
相关标签
  

闽ICP备14008679号