赞
踩
大家好,今日必读的大模型论文来啦!
1.孙力超团队提出Mora:复制 Sora 的通用视频生成功能
Sora 是第一个大规模通用视频生成模型,受到了全社会的广泛关注。自 2024 年 2 月由 OpenAI 推出以来,没有其他视频生成模型能与 {Sora} 的性能或支持广泛视频生成任务的能力相媲美。此外,目前仅有少数几个完全公开的视频生成模型,而且大多数都是闭源的。
为了填补这一空白,理海大学助理教授 Lichao Sun(孙立超)团队联合微软研究院提出了一种新的多智能体框架 Mora,它整合了多个先进的视觉 AI 智能体,以复制 Sora 所展示的通用视频生成功能。
特别是,Mora 可以利用多个视觉智能体,在各种任务中成功模仿 Sora 的视频生成能力,比如(1)文本到视频的生成,(2)文本条件图像到视频的生成,(3)扩展生成的视频,(4)视频到视频的编辑,(5)连接视频和(6)模拟数字世界。
大量实验结果表明,Mora 在各种任务中取得了接近 Sora 的性能。然而,从整体上评估,这一工作与 Sora 的性能存在明显差距。研究团队希望,这一工作能为未来通过协作式 AI 智能体生成视频提供指导。
论文链接:
https://arxiv.org/abs/2403.13248
GitHub 地址:
https://github.com/lichao-sun/Mora
2.Google DeepMind新研究:评估大模型的危险能力
要了解人工智能系统带来的风险,我们必须了解它能做什么,不能做什么。
为此,Google DeepMind 团队提出了一项新的“危险能力”(dangerous capability)评估计划,并在 Gemini 1.0 模型上进行评估,其中涵盖四个领域:说服和欺骗、网络安全、自我“增殖”(self-proliferation)和自我推理。结果显示,他们没有在所评估的模型中发现具有强大危险能力的证据,但标出了预警信号。
研究团队表示,他们的目标是帮助推进严格的危险能力评估科学,为未来的模型做好准备。
论文链接:
https://arxiv.org/abs/2403.13793
3.Meta新研究:消除大模型“反转诅咒”?试试逆向训练
大型语言模型(LLMs)有一个令人惊讶的缺陷:当在“A 有一个特征 B”上进行训练时,它们不能泛化为“B 是 A 的一个特征”,这就是所谓的“反转诅咒”(Reversal Curse)。由于齐普夫定律(Zipf’s law)的存在,即使使用数万亿个 token 进行训练,这个问题仍然会出现,因此即使我们在整个互联网上进行训练,这个问题也会出现。
为此,Meta 研究团队提出了另一种训练方案,称为逆向训练(reverse training),即所有词都使用两次,从而使可用的词库数量翻倍。在保留(即不反转)所选子串(如实体)的同时,通过反转训练字符串,对 LLM 进行正向和反向训练。
研究表明,在标准任务中,数据匹配逆向训练模型的性能优于标准模型,而在反转任务中,计算匹配逆向训练模型的性能远远优于标准模型,有助于解决“反转诅咒”问题。
论文链接:
https://arxiv.org/abs/2403.13799
4.UC伯克利新研究:什么时候不需要更大的视觉模型?
扩大视觉模型的规模一直是获得更强大视觉表征的事实标准。在这项工作中,来自 UC 伯克利和微软研究院的研究团队讨论了在多大程度上不需要更大的视觉模型。
首先,研究团队展示了“尺度扩展”(S^2)的能力,即在多个图像尺度上运行预先训练和冻结的较小视觉模型(如 ViT-B 或 ViT-L),在分类、分割、深度估计、MLLM 基准和机器人操纵方面的表现优于较大的模型(如 ViT-H 或 ViT-G)。值得注意的是,在 V* 基准上,S^2 在详细理解 MLLM 方面达到了 SOTA,超过了 GPT-4V 等模型。
另外,他们也研究了在哪些条件下,与根据模型大小进行缩放相比,S^2 是首选的缩放方法。虽然较大的模型在较难的例子上具有更好的泛化优势,但他们发现较大视觉模型的特征可以很好地近似于多尺度较小模型的特征。这表明,目前大型预训练模型所学习到的大部分(如果不是全部)表征也可以从多尺度较小模型中获得。
研究结果表明,多尺度较小模型的学习能力与较大模型相当,用 S^2 对较小模型进行预训练,可以达到甚至超过较大模型。
论文链接:
https://arxiv.org/abs/2403.13043
GitHub 地址:
https://github.com/bfshi/scaling_on_scales
5.在语言模型中实现 3D 分子-文本解释
语言模型(LM)对不同领域产生了巨大影响。然而,在理解 3D 分子结构方面的固有局限性,大大限制了它们在生物分子领域的潜力。
为了弥补这一缺陷,来自中国科学技术大学、新加坡国立大学的研究团队及其合作者,将重点放在 3D 分子-文本解释上,并提出了 3D-MoLM:三维分子语言建模。具体来说,3D-MoLM 通过为 LM 配备 3D 分子编码器,使 LM 能够解释和分析 3D 分子。这种整合是通过 3D 分子-文本投影实现的,它在 3D 分子编码器的表示空间和 LM 的输入空间之间架起了桥梁。
此外,为了增强 3D-MoLM 的跨模态分子理解和指令跟随能力,研究团队策划了一个以 3D 分子为中心的指令微调数据集—3D-MoIT。通过 3D 分子-文本配准和以 3D 分子为中心的指令微调,3D-MoLM 建立了 3D 分子编码器和 LM 的集成。它在下游任务(包括分子文本检索、分子字幕和更具挑战性的开放文本分子质量保证任务)上大大超过了现有基线,特别是在依赖于 3D 的属性方面。
论文链接:
https://arxiv.org/abs/2401.13923
GitHub 地址:
https://github.com/lsh0520/3D-MoLM
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。