当前位置:   article > 正文

9月热门论文丨语言建模即压缩,OpenAI DALL·E 3重磅升级_vision transformers need registers

vision transformers need registers

在AI领域,9月都发生了什么?

在8月底,国内11家大模型通过备案审核,所以在9月初,各家大模型纷纷“亮剑”,百度,智谱AI等上线大模型产品。

同时,在9月,发布了许多引人注目的研究论文,涵盖了各个子领域的最新进展。这些论文展示了研究人员在机器学习、自然语言处理、计算机视觉等方面的创新成果。

让我们来一起回顾并分析一些备受关注的9月热门论文,探索其对AI领域的影响和意义。

在本文中,我们将通过AMiner AI功能,一起探寻论文背后的核心思想和创新点,快速了解论文细节。

让我们一同探索这个充满活力的领域!

1. Language Modeling Is Compression

这篇论文探讨了语言模型与压缩之间的关系。论文指出,预测模型可以被转化为无损压缩器,反之亦然。近年来,机器学习领域专注于训练越来越大的自监督(语言)模型。由于这些大型语言模型具有出色的预测能力,因此它们非常适合作为强大的压缩器。论文主张从压缩的角度看待预测问题,并评估大型(基础)模型的压缩能力。结果表明,大型语言模型是强大的通用预测器,压缩观点为我们提供了关于缩放定律、标记化和上下文学习的独特见解。例如,尽管 Chinchilla 70B 主要在文本上进行训练,但它将 ImageNet 补丁压缩到原大小的 43.4%,将 LibriSpeech 样本压缩到原大小的 16.4%,分别击败了领域特定的压缩器如 PNG(58.5%)或 FLAC(30.3%)。最后,论文表明,预测-- 压缩等价性允许我们使用任何压缩器(如 gzip)来构建条件生成模型。

链接:https://www.aminer.cn/pub/650a566d3fda6d7f067ece3e/?f=cs

2. NExT-GPT: Any-to-Any Multimodal LLM

这篇论文介绍了一种名为 NExT-GPT 的任何到任何的多模态大型语言模型 (MM-LLM)。目前,虽然多模态大型语言模型已经取得了令人兴奋的进展,但它们大多局限于仅在输入侧进行多模态理解,而没有在多种模式下产生内容的能力。由于人类总是通过各种模式感知世界和与他人进行交流,因此开发能够接受和产生任何模态内容的通用多模态大型语言模型变得至关重要。为了填补这一空白,作者提出了一种端到端的通用多模态大型语言模型系统 NExT-GPT。通过连接具有多模态适配器和不同扩散解码器的语言模型,使 NExT-GPT 能够感知任意组合的文本、图像、视频和音频输入,并生成相应的内容。此外,作者引入了一种名为 modality-switching instruction tuning (MosIT) 的方法,并手动策划了一个高质量的 MosIT 数据集,基于此,NExT-GPT 获得了复杂的多模态语义理解和内容生成功能。总之,这项研究展示了构建具有通用模态能力的 AI 代理的潜在可能性,为社区内更类似人类的 AI 研究铺平了道路。

链接:https://www.aminer.cn/pub/64ffcc023fda6d7f06d03cca/?f=cs

3. CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

这篇论文介绍了 CulturaX,一个用于训练大型语言模型(LLMs)的干净、巨大且多语种的语料库,包含 167 种语言的 6.3 万亿个标记。大型语言模型的学习能力强,主要源于其庞大的模型规模和广泛的训练数据集。然而,对于这些 LLMs 的训练数据集,特别是最近最先进的模型,通常并未完全公开。为了创建高性能 LLMs 的训练数据,需要进行大量的清洗和去重,以确保所需的质量水平。训练数据的透明度不足,从而阻碍了研究者在 LLMs 中归因和解决幻觉和偏见问题,阻碍了复制努力和社区进一步的发展。在多语种学习场景中,这些挑战变得更加突出,因为可用的多语种文本数据集通常收集和清洗不足。因此,缺乏可用于有效训练多种语言的 LLMs 的开源和易于使用的数据集。为了解决这个问题,作者们提出了 CulturaX,一个为 LLM 开发定制的多语种数据集,包含 167 种语言的 6.3 万亿个标记。该数据集通过多个阶段的严格处理进行仔细的清洗和去重,以达到模型训练的最佳质量,包括语言识别、基于 URL 的过滤、基于指标的清洗、文档精炼和数据去重。CulturaX 已在 HuggingFace 上向公众完全发布,以促进多语种 LLMs 的研究和发展。

链接:https://www.aminer.cn/pub/650904db3fda6d7f06cd49f3/?f=cs

4. DreamLLM: Synergistic Multimodal Comprehension and Creation

这篇论文介绍了 DreamLLM 学习框架,该框架首次实现了具有经常被忽视的多模态理解和创造之间协同作用的多模态大型语言模型 (MLLMs)。DreamLLM 基于两个基本原则运行。第一个原则是通过直接在原始多模态空间中采样语言和图像后验分布,对语言和图像进行生成建模。这种方法绕过了像 CLIP 这样的外部特征提取器的局限性和信息损失,获得了更全面的多模态理解。第二个原则是 DreamLLM 促进生成原始、交织的文档,同时建模文本和图像内容以及非结构化布局。这使得 DreamLLM 能够有效地学习所有条件、边际和联合多模态分布,成为第一个能够生成自由形式交织内容的 MLLM。综合实验突显了 DreamLLM 作为零射击多模态专家的优越性能,得益于增强的学习协同作用。

链接:https://www.aminer.cn/pub/650ba7c03fda6d7f06e613ee/?f=cs

5. FreeU: Free Lunch in Diffusion U-Net

这篇论文探讨了扩散 U-Net 的未开发潜力,将其视为一种“免费午餐”,可以实时显著提高生成质量。论文首先研究了 U-Net 架构对去噪过程的关键贡献,并发现其主要骨干主要贡献于去噪,而其跳线连接主要将高频特征引入解码器模块,导致网络忽略骨干语义。利用这一发现,论文提出了一种简单而有效的方法——“FreeU”,在不进行额外训练或微调的情况下提高生成质量。其关键思路是策略性地重新加权 U-Net 的跳线连接和骨干特征图贡献,利用 U-Net 架构的两个组件的优势。在图像和视频生成任务上取得了良好的结果,证明了 FreeU 可以很容易地集成到现有的扩散模型中,例如 Stable Diffusion、DreamBooth、ModelScope、Rerender 和 ReVersion,只需要在推理过程中调整两个缩放因子即可。所有你需要做的就是调整两个缩放因子。项目页面:https://chenyangsi.top/FreeU/.

链接:https://www.aminer.cn/pub/650ba7c03fda6d7f06e613ec/?f=cs

6. LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

论文介绍了一个名为LongLoRA的方法,该方法能够有效地对大型语言模型进行fine-tuning,并在计算成本有限的情况下扩展模型的上下文大小。通常,对于具有长上下文大小的语言模型进行训练需要大量的计算资源和时间。例如,与2048的上下文长度相比,8192的上下文长度需要16倍的计算成本。本文提出了两个方法来加速语言模型的上下文扩展。一方面,在推理过程中需要使用全局注意力,但是使用稀疏的局部注意力进行fine-tuning可以实现高效的计算。通过引入所提出的shift short attention方法,可以有效地扩展上下文,并且与使用传统注意力进行fine-tuning相比,可以节省非常可观的计算资源,同时具有相似的性能表现。尤其值得一提的是,在模型的训练中,只需要加入两行代码即可实现该方法,而在推理过程中可以选择是否使用。另一方面,在上下文扩展的fine-tuning过程中,作者重新审视了参数有效的fine-tuning机制。值得注意的是,作者发现在可训练的embedding和normalization的前提下,上下文扩展的LoRA机制表现良好。LongLoRA在从7B/13B到70B的LLaMA2模型上展示了强大的实证结果。在由单个8x A100机器上对LLaMA2 7B模型的上下文从4k扩展到100k,或对LLaMA2 70B模型的上下文从32k扩展到70B的情况下,LongLoRA仍然能够维持模型的原始架构,并且与大多数现有技术(如FlashAttention-2)兼容。此外,为了使LongLoRA能够实际应用,作者收集了一个名为LongQA的数据集,用于有监督的fine-tuning,其中包含超过3k个长上下文的问题-答案对。

链接:https://www.aminer.cn/pub/650cf92d3fda6d7f06d445d9/?f=cs

7. CodePlan: Repository-level Coding using LLMs and Planning

论文说明了在软件工程中,进行整个代码仓库的编辑活动(如包迁移、修复静态分析或测试中的错误报告,以及为代码库添加类型注释或其他规范)是一种复杂的任务,传统方法无法直接解决。虽然最近一些利用大型语言模型(LLMs)的工具(如GitHub Copilot)可以成功地提供局部编码问题的高质量解决方案,但对于整个代码库的编辑任务,传统方法无法适用,因为代码库中的代码是相互依赖的,而整个代码库可能太大而无法适应输入。因此,该论文提出了一种以规划问题的形式来解决整个代码库的编辑任务的框架,称为CodePlan。CodePlan通过将整个编辑过程分解为多个步骤(计划),每个步骤都会对代码库中的某个位置进行编辑,上下文由整个代码库、之前的代码修改和任务特定的指令决定,并调用LLM。CodePlan基于一种增量依赖分析、变更可能影响分析和自适应规划算法的新颖组合。实验结果表明,与基准方法相比,CodePlan能更好地匹配基准结果,并且在验证检查(如无错误地构建和正确的代码编辑)方面,CodePlan能将5/6个代码库通过,而基准方法不能通过任何代码库的验证检查。

链接:https://www.aminer.cn/pub/6510edb83fda6d7f06b90db1/?f=cs

8. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

这篇论文介绍了一种名为 AnyMAL 的高效可扩展的多模态增强语言模型。AnyMAL 是一种统一的模型,可以对多种输入模态信号(如文本、图像、视频、音频、IMU 运动传感器)进行推理,并生成文本回应。AnyMAL 继承了最先进的 LLM(包括 LLaMA-2(70B))强大的基于文本的推理能力,并通过预训练的对齐器模块将模态特定信号转换为联合文本空间。为了进一步增强多模态 LLM 的能力,我们使用手动收集的多模态指令集进行微调,以涵盖简单问答以外的多样主题和任务。我们进行了全面的实证分析,包括人类和自动评估,并在各种多模态任务中展示了最先进的性能。

链接:https://www.aminer.cn/pub/6516338d3fda6d7f065e4f39/?f=cs

9. YaRN: Efficient Context Window Extension of Large Language Model

这篇论文介绍了一种名为 YaRN(另一种 RoPE 扩展方法)的高效上下文窗口扩展方法,适用于大型语言模型。旋转位置嵌入(RoPE)已被证明能有效地在基于变压器的语言模型中编码位置信息。然而,这些模型无法推广到其训练序列长度之外。YaRN 是一种计算效率高的方法,可以扩展这些模型的上下文窗口,所需的标记和训练步骤分别是以前方法的十分之一和二点五倍。通过使用 YaRN,我们展示了 LLaMA 模型可以有效地利用并扩展到比其原始预训练允许的长度更长的上下文,同时超越了以前关于上下文窗口扩展的最优表现。此外,我们还证明了 YaRN 具有超越精细调整数据集有限上下文的能力。我们在 https://github.com/jquesnelle/yarn 上发布了使用 YaRN 在 64k 和 128k 上下文窗口下对 Llama 2 7B/13B进行精细调整的检查点。

链接:https://www.aminer.cn/pub/64f59fc23fda6d7f0648f11d/?f=cs

10. RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

这篇论文主要研究了从人类反馈(RLHF)和 AI 反馈(RLAIF)两种方法中进行强化学习的效果。结果表明,RLAIF 和 RLHF 的性能相似,且都能得到人类评价者的认可。这项研究为解决 RLHF 扩展性的限制提供了一种可能的解决方案。

链接:https://www.aminer.cn/pub/64f59fc23fda6d7f0648f1fb/?f=cs

11. One Wide Feedforward is All You Need

这篇论文探讨了 Transformer 架构中的 Feed Forward Network(FFN)的作用。FFN 在每个输入标记之间进行非线性转换,尽管占据了模型参数的很大一部分,但却是高度冗余的。通过在解码器层移除 FFN 并共享一个 FFN,作者发现可以显著减少参数数量,同时只降低了一定程度的准确性。最后,通过增加共享 FFN 的隐藏维度,将该架构恢复到原始大小,与原始 Transformer Big 相比,在准确性和延迟方面都取得了显著的进步。

链接:https://www.aminer.cn/pub/64f7f9443fda6d7f06f28b52/?f=cs

12. SLiMe: Segment Like Me

这篇论文介绍了一种名为 SLiMe(Segment Like Me)的新方法,用于在图像分割任务中使用大型视觉语言模型(如 Stable Diffusion)。SLiMe 通过将问题转化为优化任务来实现在任意所需粒度上分割图像,仅使用一个标注样本。具体而言,给定一个训练图像及其分割掩码,SLiMe 首先提取注意力图,包括我们新颖的“加权累积自注意力图”来自 SD 先验。然后,利用提取到的注意力图,优化 Stable Diffusion 的文本嵌入,使每个嵌入学习训练图像中的单个分割区域。这些学到的嵌入随后在注意力图中突出显示分割区域,进而可以用来提取分割图。这使得 SLiMe 在推理过程中能够使用训练图像中分割区域的粒度,仅用一个示例对任何实际图像进行分割。此外,当有额外的训练数据可用时(例如,少量样本),可以提高 SLiMe 的性能。通过进行一系列丰富的实验来研究各种设计因素,作者展示了 SLiMe 优于其他现有的单样本和少量样本分割方法。

链接:https://www.aminer.cn/pub/64f933e53fda6d7f067a142a/?f=cs

13. FLM-101B: An Open LLM and How to Train It with $100K Budget

这篇论文介绍了 FLM-101B 的开放性大型语言模型 (LLM) 及其如何使用 10 万美元的预算进行训练。尽管大型语言模型 (LLM) 在 NLP 和多模态任务中取得了显著的成功,但它们的开发面临着两个主要挑战:高昂的计算成本和难以进行公平客观的评估。LLM 的开发成本过高,使得只有少数大玩家才能承担其训练,从而限制了研究和应用机会。因此,低成本的 LLM 训练非常重要。在本文中,作者利用生长策略显著降低了 LLM 训练成本,并证明了一个具有 101B 参数和 0.31TB 标记符的 LLM 可以在 10 万美元的预算下进行训练。此外,作者还采用了一种系统的评估范式来评估 LLM 的 IQ,以补充现有评估更多地关注知识导向的能力。作者引入了包括符号映射、IT 规则理解、模式挖掘和抗干扰在内的智力的关键方面评估,以最小化记忆的影响。实验结果表明,作者的模型 FLM-101B(使用 10 万美元的预算进行训练)在 IQ 基准评估方面,尤其是在训练数据中未见过的上下文中,与强大且著名的模型(例如 GPT-3 和 GLM-130B)表现相当。FLM-101B 的检查点将在 https://huggingface.co/CofeAI/FLM-101B 上开源。

链接:https://www.aminer.cn/pub/64fa84403fda6d7f06700975/?f=cs

14. Large-Scale Automatic Audiobook Creation

这篇论文介绍了一种大规模自动生成有声书籍的系统。该系统可以从在线电子书中自动生成高质量的有声书籍,利用神经文本到语音技术,从 Project Gutenberg 电子书集合中创建和发布数千个人类质量的开放许可证有声书籍。该方法可以识别各种结构化书籍的正确内容子集进行阅读,并可以并行处理数百本书籍。该系统允许用户自定义有声书籍的说话速度、风格、情感语调,甚至可以使用少量样本音频匹配所需的音色。这项工作贡献了五千多本开放许可证的有声书籍和一个互动演示,允许用户快速创建自己的定制有声书籍。要收听有声书集合,请访问 https://aka.ms/audiobook。

链接:https://www.aminer.cn/pub/64fe78e03fda6d7f06a4307d/?f=cs

15. Textbooks Are All You Need II: phi-1.5 technical report

这篇论文继续探讨了基于 Transformer 的小型语言模型的力量,这种模型在自然语言生成方面具有高度连贯性。论文中提出了一个新的 13 亿参数模型,名为 phi-1.5,该模型在自然语言任务上的表现与大小为模型 5 倍的模型相当,在诸如小学数学和基本编程等更复杂的推理任务上超过了大多数非前沿语言模型。phi-1.5 还展现出许多大型语言模型的特征,包括能够逐步思考和进行基本的上下文学习,但也存在一些问题,如虚构内容和产生有毒和偏见内容的风险。然而,令人鼓舞的是,由于避免了网络数据的使用,在这方面有所改进。作者开源了 phi-1.5 模型,以促进对这些紧迫问题的进一步研究。

链接:https://www.aminer.cn/pub/64ffcbe23fda6d7f06d007c8/?f=cs

16. PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models

这篇论文介绍了一种名为 PhotoVerse 的方法,该方法使用文本到图像扩散模型进行无调整图像定制。现有的个性化方法面临诸如调整时间长、存储需求大、每个身份需要多个输入图像以及保存身份和编辑性方面的限制。为解决这些难题,论文提出了一种创新方法,该方法在文本和图像域中采用双重分支条件机制,有效控制图像生成过程。此外,论文引入了面部身份损失作为训练期间增强身份保留的新组件。值得注意的是,所提出的 PhotoVerse 消除了测试时调整的需要,仅依赖于目标身份的一张面部照片,大大降低了与图像生成相关的资源成本。在单个训练阶段后,该方法能够在短短几秒钟内生成高质量的图像。此外,该方法可以产生包含各种场景和风格的多样化图像。广泛的评估证明了该方法在保留身份和提高编辑性方面的优越性能。

项目页面:https://photoverse2d.github.io/。

链接:https://www.aminer.cn/pub/65011bda3fda6d7f060e4678/?f=cs

17. MagiCapture: High-Resolution Multi-Concept Portrait Customization

这篇论文介绍了一种名为 MagiCapture 的高分辨率多概念人像自定义方法。现有的文本到图像模型可以生成高保真、逼真的肖像图像,但它们生成的图像往往缺乏真实性,还没有达到商业可行的水平。针对这个问题,作者提出了一种将主题和风格概念整合到一起,只需要几个主题和风格参考就能生成高分辨率肖像图像的方法。例如,给定一些随机的自拍照,经过精细调整的模型可以生成高质量、特定风格的肖像图像,如护照或个人资料照片。主要挑战在于缺少合成的概念的地面真实值,导致最终输出质量降低,源主题的身份发生变化。为了解决这些问题,作者提出了一种新颖的注意力重聚焦损失与辅助先验,这些方法在弱监督学习环境下促进了稳健的学习。此外,该流程还包括额外的后处理步骤,以确保生成高度逼真的输出。在定量和定性评估中,MagiCapture 优于其他基线,还可以推广到其他非人类对象。

链接:https://www.aminer.cn/pub/65026d513fda6d7f06474c11/?f=cs

18. Generative Image Dynamics

这篇论文提出了一种名为"生成图像动力学"的方法,用于建模场景动态的图像空间先验。该先验从包含自然波动运动的视频序列中提取的运动轨迹集合中学习得到,例如树木、花朵、蜡烛和随风摇曳的衣物。给定一张图像,经过训练的模型使用一种频率协调的扩散抽样过程,在傅里叶域预测每个像素的长期运动表示,我们称之为神经随机运动纹理。这种表示可以转换为密集的运动轨迹,覆盖整个视频。与基于图像的渲染模块相结合,这些轨迹可以用于许多下游应用,例如将静止图像无缝转换为动态视频,或使用户能够真实地与现实图片中的物体互动。

链接:https://www.aminer.cn/pub/6503bec83fda6d7f067c778d/?f=cs

19. Agents: An Open-source Framework for Autonomous Language Agents

这篇论文介绍了一种名为"Agents"的开源框架,用于构建自主语言代理。大型语言模型(LLM)的最新进展使得研究人员和开发人员可以构建自主语言代理,这些代理可以自动解决各种任务,并使用自然语言界面与环境、人类和其他代理进行交互。作者认为,语言代理是朝着人工通用智能的有前途的方向,并发布了 Agents,这是一个开源库,旨在将这些进步带给更广泛的非专业受众。Agents 精心设计,支持包括规划、记忆、工具使用、多代理通信和细粒度符号控制等重要功能。Agents 易于使用,使非专业人员可以轻松地构建、自定义、测试、调整和部署最先进的自主语言代理,而无需编写太多代码。该库还具有研究友好型设计,其模块化设计使其易于扩展,方便研究人员使用。Agents 可以在 https://github.com/aiwaves-cn/agents找到。

链接:https://www.aminer.cn/pub/6503bec83fda6d7f067c7765/?f=cs

20. Connecting Large Language Models with Evolutionary Algorithms Yields Powerful Prompt Optimizers

这篇论文介绍了一种名为 EvoPrompt 的新框架,用于自动优化离散提示。该框架利用了进化算法(EAs)的良好性能和快速收敛特性,同时连接了大型语言模型(LLMs)。EvoPrompt 可以同时利用 LLMs 的强大语言处理能力和 EAs 的有效优化性能,无需梯度或参数。该方法在 9 个涵盖语言理解和生成任务的数据集上进行了优化,包括闭源和开源 LLMs(如 GPT-3.5 和 Alpaca)。EvoPrompt 显著优于人工设计的提示和现有的自动提示生成方法,分别提高了 25% 和 14%。此外,EvoPrompt 还证明了将 LLMs 与 EAs 连接起来可以产生协同作用,这可能启发进一步研究 LLMs 与传统算法的结合。

链接:https://www.aminer.cn/pub/6507b3e03fda6d7f06799bd8/?f=cs

21. Adapting Large Language Models via Reading Comprehension

这篇论文研究了如何通过阅读理解来适应大型语言模型。作者发现,在特定领域的语料库上进行持续预训练会影响大型语言模型,使其获得领域知识,但会极大地降低其回答问题的能力。受到人类通过阅读理解学习的启发,作者提出了一种将原始语料库转化为阅读理解文本的简单方法。该方法可以在任何预训练语料库上进行扩展,并在三个不同领域(生物医学、金融和法律)的各种任务中持续提高性能。值得注意的是,作者的 70 亿参数语言模型在与规模更大的领域特定模型(如 BloombergGPT-50B)的竞争中表现出色。此外,作者还证明了领域特定的阅读理解文本可以提高模型在一般基准测试上的表现,显示出跨更多领域的通用模型的潜力。作者的模型、代码和数据将在 https://github.com/microsoft/LMOps 上提供。

链接:https://www.aminer.cn/pub/650904f23fda6d7f06cd5276/?f=cs

22. Contrastive Decoding Improves Reasoning in Large Language Models

这篇论文研究了一种名为对比解码(Contrastive Decoding)的文本生成方法,该方法简单、计算负担轻,且无需训练。论文作者发现,在各种推理任务中,对比解码方法相较于贪婪解码方法能带来较大的提升。对比解码最初被提出用于提高长篇文本生成的质量,其搜索目标是最大化强弱模型之间加权概率差异的文本串。研究结果显示,对比解码使得 LLaMA-65B 大大超越了 LLaMA 2、GPT-3.5 和 PaLM 2-L 在 HellaSwag 常识推理基准上的表现,同时在 GSM8K 数学词汇推理基准上超过了 LLaMA 2、GPT-3.5 和 PaLM-540B,以及其他任务上的改进。分析表明,对比解码通过防止某些抽象推理错误,以及避免在链式思维过程中简单地复制输入段的模式,超越了现有的方法。总的来说,对比解码在长篇生成和推理任务上都优于内核采样和贪婪解码,因此成为生成文本的一种强大的通用方法。

链接:https://www.aminer.cn/pub/650904db3fda6d7f06cd48d1/?f=cs

23. Multimodal Foundation Models: From Specialists to General-Purpose Assistants

论文全面调查了展示视觉和视觉语言能力的多模态基础模型,重点关注从专业模型到通用助手模型的转变。研究范围涵盖五个核心主题,分为两类。(i)首先,我们对已经确立的研究领域进行了调查:为特定目的预训练的多模态基础模型,包括两个主题–视觉理解和学习大型语言模型(LLM)的统一视觉模型。(ii)然后,我们介绍了最近在探索性、开放研究领域的进展:旨在扮演通用助手角色的多模态基础模型,包括三个主题–受大型语言模型(LLM)启发的统一视觉模型,多模态 LLM 的端到端训练,以及将多模态工具与 LLM 相连接。论文的目标受众是计算机视觉和视觉-- 语言多模态社区的研究人员、研究生和专业人士,他们渴望了解多模态基础模型的基本知识和最新进展。

链接:https://www.aminer.cn/pub/650a56593fda6d7f067ea000/?f=cs

24. Kosmos-2.5: A Multimodal Literate Model

这篇论文介绍了 Kosmos-2.5,一种用于处理文本密集图像的多模态识字模型。Kosmos-2.5 在大规模文本密集图像上进行预训练,擅长处理两个不同但又相互协作的转录任务:(1)生成空间感知文本块,其中每个文本块都分配了图像中的空间坐标;(2)产生结构化文本输出,将样式和结构捕捉到标记格式中。通过共享 Transformer 架构、任务特定提示和灵活的文本表示,实现了这一统一的多模态识字能力。Kosmos-2.5 在端到端的文档级文本识别和图像到标记文本生成上进行了评估。此外,通过有监督的微调,该模型可以轻松适应任何文本密集图像理解任务,通过不同的提示使其成为一种通用的工具,用于涉及文本丰富的真实世界应用。这项工作还为多模态大型语言模型的未来发展铺平了道路。

链接:https://www.aminer.cn/pub/650ba7c03fda6d7f06e6139a/?f=cs

25. Exploring Large Language Models’ Cognitive Moral Development through Defining Issues Test

这篇论文探讨了大型语言模型的认知道德发展,通过使用“定义问题测试”来评估其道德一致性和 Kohlberg 的道德发展阶段。尽管大量的研究致力于阐明这些模型的内在推理和问题解决能力,但在理解它们的道德发展和判断方面仍然存在显著的差距。目前评估这些模型伦理推理能力的方法作为一种分类任务,由于过于简化而存在许多不准确性。在本文中,我们通过建立心理学联系,弥合了人类心理学和 AI 这两个不同领域之间的差距。我们提出了一种有效的评估框架,可以使用心理测量评估工具-- 定义问题测试,来划分模型的伦理推理能力。

链接:https://www.aminer.cn/pub/65123f453fda6d7f06e54936/?f=cs

26. LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

这篇论文介绍了一种名为 LaVie 的高质量文本到视频(T2V)生成模型。该模型的目标是利用预训练的文本到图像(T2I)模型作为基础,学习一种高质量的 T2V 生成模型。这个任务具有高度的期望,但也极具挑战性,因为它需要同时实现视觉逼真和时间连贯的视频合成,同时保留预训练 T2I 模型的强大创意生成特性。为此,作者提出了一种基于级联视频潜在扩散模型的集成视频生成框架,包括一个基础 T2V 模型、一个时间插值模型和一个视频超分辨率模型。作者的主要洞察有两点:一是简单的时间自注意力机制,结合旋转位置编码,可以充分捕捉视频数据中的时间相关性;二是图像-- 视频联合微调的过程在产生高质量和创意结果中起到了关键作用。为了提高 LaVie 的性能,作者贡献了一个名为 Vimeo25M 的全面且多样化的视频数据集,包含 2500 万文本-- 视频对,重点关注质量、多样性和美学吸引力。大量实验证明,LaVie 在定量和定性方面都取得了最先进的性能。此外,作者还展示了预训练 LaVie 模型在各种长视频生成和个人视频合成应用中的多功能性。

链接:https://www.aminer.cn/pub/651390ac3fda6d7f0603519d/?f=cs

27. Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

这篇论文介绍了 Emu,一种通过在预训练模型中使用具有美学价值的图片来提高图像生成模型效果的方法。尽管大规模的图像-- 文本对预训练模型可以生成各种视觉概念,但它们在生成高美学价值的图片时常常面临挑战。因此,在预训练之后需要进行美学对齐。作者提出了一种质量调整方法,可以有效地引导预训练模型专门生成高视觉吸引力的图片,同时保持对各种视觉概念的泛化能力。他们的关键洞察是,用一套非常小但极其视觉吸引人的图片进行监督微调可以显著提高生成质量。他们在 11 亿张图像-- 文本对上预训练了一个潜在扩散模型,并使用仅几千张精心选择的高质量图片进行微调。得到的模型 Emu 在与预训练模型的对比中取得了 82.9% 的胜率。与最先进的 SDXLv1.0 相比,Emu 在标准 PartiPrompts 和基于实际文本-- 图像模型使用的 Open User Input 基准上的视觉吸引力分别被偏好 68.4% 和 71.3%。此外,作者还展示了质量调整是一种通用的方法,对于其他架构(包括像素扩散和掩码生成变换器模型)也有效。

链接:https://www.aminer.cn/pub/6514e2043fda6d7f062dcb29/?f=cs

28. Vision Transformers Need Registers

这篇论文研究了视觉 Transformer(ViT)网络中特征图中的不良现象。这些不良现象主要出现在图像的低信息量背景区域,在推理过程中表现为高范数标记,并被重新用于内部计算。为了解决这个问题,作者提出了一种简单而有效的解决方案,即向视觉 Transformer 的输入序列提供额外的标记来填补这个角色。结果表明,这个解决方案对于监督学习和自监督学习模型完全解决了这个问题,为自监督视觉模型在密集视觉预测任务上创造了新的最先进水平,使得更大规模的模型能够使用对象发现方法,最重要的是使得下游视觉处理具有更平滑的特征图和注意力图。

链接:https://www.aminer.cn/pub/6516338d3fda6d7f065e5156/?f=cs

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/131288
推荐阅读
相关标签
  

闽ICP备14008679号