赞
踩
大家好,今日必读的大模型论文来啦!
1.谷歌Gemini 1.5 Pro技术报告出炉,共计671位作者
在 Gemini 1.5 Pro 技术报告中,谷歌团队写道,“Gemini 1.5 Pro 是一种计算效率极高的多模态专家混合模型,能够从包括多个长文档和数小时的视频和音频在内的数百万个 token 的上下文中调用细粒度信息并进行推理。”
据介绍,Gemini 1.5 Pro 在各种模式的长语境检索任务中实现了接近完美的召回率,提高了长文档质量保证、长视频质量保证和长语境 ASR 的先进水平,并在一系列广泛的基准测试中达到或超过了 Gemini 1.0 Ultra 的先进水平。
另外,在研究 Gemini 1.5 Pro 长文本能力的极限时,谷歌团队发现,它在下一个 token 预测方面不断改进,检索率接近完美(>99%),达到至少 1000 万个 token,与 Claude 2.1(20 万)和 GPT-4 Turbo(128 万)等现有模型相比实现了巨大的提升。
最后,谷歌团队强调了大型语言模型(LLMs)在前沿领域令人惊讶的新能力;当给定 Kalamang(一种在全球使用人数不到 200 人的语言)的语法手册时,该模型学会了将英语翻译成 Kalamang,其水平与从相同内容中学习的人相似。
论文链接:
https://arxiv.org/abs/2403.05530
2.清华、智谱AI团队提出CogView3:通过Relay Diffusion实现更精细、更快速的“文生图”
文生图系统的最新进展主要是由扩散模型推动的。然而,单级文本到图像扩散模型在计算效率和图像细节细化方面仍面临挑战。为了解决这个问题,来自清华大学和智谱AI 的研究团队提出了 CogView3——一个能提高文本到图像扩散性能的创新级联框架。
据介绍,CogView3 是第一个在文本到图像生成领域实现 relay diffusion 的模型,它通过首先创建低分辨率图像,然后应用基于中继(relay-based)的超分辨率来执行任务。这种方法不仅能产生有竞争力的文本到图像输出,还能大大降低训练和推理成本。
实验结果表明,在人类评估中,CogView3 比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,而所需的推理时间仅为后者的 1/2。经过提炼(distilled)的 CogView3 变体性能与 SDXL 相当,而推理时间仅为后者的 1/10。
论文链接:
https://arxiv.org/abs/2403.05121
3.DeepSeek-VL:实现真实世界的视觉语言理解
DeepSeek-VL 是一个开源的视觉语言(VL)模型,专为真实世界的视觉和语言理解应用而设计,围绕三个关键维度展开:
1)数据构建:为全面呈现实际语境,DeepSeek-AI 团队努力确保数据的多样性和可扩展性,并广泛涵盖现实世界的各种场景,包括网页截图、PDF、OCR、图表和基于知识的内容。此外,团队还根据真实用户场景创建了用例分类法,并据此构建了指令微调数据集。利用该数据集进行的微调大大改善了模型在实际应用中的用户体验。
2)模型架构:考虑到大多数实际应用场景的效率和需求,DeepSeek-VL 采用了混合视觉编码器,可高效处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这一设计选择确保了该模型在各种视觉任务中捕捉关键语义和细节信息的能力。
3)训练策略:团队认为,一个熟练的视觉语言模型首先应具备强大的语言能力。为了确保在预训练过程中保留 LLM 的能力,团队研究了一种有效的 VL 预训练策略,即从一开始就整合 LLM 训练,并仔细管理视觉和语言模式之间的竞争动态。
DeepSeek-VL 系列(包括 1.3B 和 7B 模型)作为视觉语言聊天机器人在现实世界的应用中展示了优秀的用户体验,在相同模型大小的各种视觉语言基准测试中取得了 SOTA 或具有竞争力的性能,同时在以语言为中心的基准测试中保持了强劲的性能。
论文链接:
https://arxiv.org/abs/2403.05525
4.Sora 能否作为 AGI 世界模型?一文读懂文本到视频生成
文本到视频生成标志着快速发展的生成式人工智能领域的一个重要前沿,它整合了文本到图像合成、视频字幕和文本引导编辑方面的进步。
该论文对文本到视频技术的发展进行了研究,重点关注从传统生成模型到最先进的 Sora 模型的转变,并强调了可扩展性和通用性方面的发展。有别于以往的分析,研究团队深入探讨了这些模型的技术框架和发展路径。
此外,团队还深入探讨了实际应用,并解决了一些伦理和技术方面的挑战,如无法进行多实体处理、理解因果效应学习、理解物理交互、感知物体缩放和比例,以及消除对象幻觉(这也是生成模型中的一个长期存在的问题)。
此外,该论文涵盖了将文本到视频生成模型作为人类辅助工具和世界模型的话题,同时也引出了模型的不足之处,并总结了未来的改进方向,主要围绕训练数据集和评估指标(自动和以人为中心)展开。
研究团队表示,该论文既面向新手,也面向经验丰富的研究人员,旨在促进不断发展的文本到视频生成领域的进一步创新和讨论,为更可靠、更实用的生成式人工智能技术铺平道路。
论文链接:
https://arxiv.org/abs/2403.05131
5.ChatTraffic:首个用于文本到交通生成的扩散模型
交通预测是智能交通系统(ITS)最重要的基础之一。传统的交通预测方法仅依靠历史交通数据来预测交通趋势,面临两大挑战:1) 对异常事件不敏感;2) 长期预测性能有限。
在这项工作中,研究团队探索了如何将生成模型与描述交通系统的文本相结合,用于交通生成,并将这项任务命名为文本到交通生成(TTG)。
TTG 任务的关键挑战在于如何将文本与道路网络的空间结构和交通数据联系起来,从而生成交通状况。为此,我们提出了 ChatTraffic,这是第一个用于文本到交通生成的扩散模型。为了保证合成数据和真实数据之间的一致性,我们用图卷积网络(GCN)增强了扩散模型,以提取交通数据的空间相关性。此外,我们还为 TTG 任务构建了一个包含文本-流量对的大型数据集。我们在发布的数据集上对我们的模型进行了定性和定量基准测试。
实验结果表明,ChatTraffic 可以从文本中生成真实的交通状况。
论文链接:
https://arxiv.org/abs/2403.05029
GitHub地址:
https://github.com/ChyaZhang/ChatTraffic
6.StereoDiffusion:使用潜在扩散模型生成免训练立体图像
随着制造商推出更多 XR 设备,对立体图像的需求也随之增加。
为了满足这一需求,丹麦理工大学研究团队推出了立体扩散(StereoDiffusion)方法,与传统的绘制管道不同,这种方法无需训练,使用起来非常简单,而且可以无缝集成到原始的 Stable Diffusion 模型中。这一方法修改了潜变量,提供了端到端的轻量级功能,可快速生成立体图像对,且无需微调模型权重或对图像进行任何后期处理。
另外,研究团队利用原始输入生成左侧图像并为其估算差异图,然后通过立体像素移动操作生成右侧图像的潜在向量,再辅以对称像素移动掩蔽去噪和自注意层修改方法,使右侧图像与左侧图像对齐。
此外,研究团队提出的方法在整个立体生成过程中都能保持高标准的图像质量,在各种定量评估中都获得了 SOTA。
论文链接:
https://arxiv.org/abs/2403.04965
7.VideoElevator:利用多功能文本到图像扩散模型提升视频生成质量
文本到图像扩散模型(T2I)在创建逼真、美观的图像方面已经展现出强大能力。相反,由于训练视频的质量和数量不足,文本到视频扩散模型(T2V)在帧质量和文本对齐方面仍然远远落后。
来自哈尔滨工业大学、清华大学的研究团队提出了一种无需训练、即插即用的方法——VideoElevator,该方法利用 T2I 提升了 T2V 的性能。
据介绍,与传统的 T2V 采样(即时间和空间建模)不同,VideoElevator 将每个采样步骤明确分解为时间运动细化和空间质量提升。具体来说,时间运动细化使用封装(encapsulated)的 T2V 来增强时间一致性,然后反转为 T2I 所要求的噪声分布。然后,空间质量提升利用扩展(inflated)的 T2I 直接预测噪声较小的潜影,增加更多照片般逼真的细节。
研究团队在各种 T2V 和 T2I 的组合下进行了大量 prompt 实验。结果表明,VideoElevator 不仅提高了具有基础 T2I 的 T2V 基线的性能,还促进了具有个性化 T2I 的风格化视频合成。
论文链接:
https://arxiv.org/abs/2403.05438
项目地址:
https://videoelevator.github.io/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。