当前位置:   article > 正文

Big Model Weekly | 第18期

graph chain-of-thought: augmenting large language models by reasoning on gra

点击蓝字

03e41b03a0f8146c4e8b36130d5dd544.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

1.Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models

这篇论文摘要主要描述了混合专家(MoE)语言模型相对于密集模型在计算成本上的优势,以及它们在参数和GPU内存需求方面的挑战。MoE语言模型可以在不牺牲性能的前提下,将计算成本降低2-4倍,这使得它们在计算受限的场景中更为高效。然而,为了达到与密集模型相当的性能,MoE模型通常需要2-4倍的参数,这增加了GPU内存需求,使得它们在像自回归生成这样的I/O受限场景中效率较低。为了解决这些问题,作者提出了一种混合密集训练和稀疏推断框架,称为DS-MoE,该框架在训练期间通过所有专家进行密集计算,并在推断期间使用稀疏计算,从而实现了强大的计算和参数效率。作者的实验结果显示,他们的DS-MoE模型在参数效率上优于标准的稀疏MoEs,并且在总参数大小和性能方面与密集模型不相上下,同时计算成本更低(激活了模型参数的30-40%)。使用vLLM进行的性能测试显示,他们的DS-MoE-6B模型比类似的密集模型Mistral-7B运行速度快高达1.86倍,比可比较的MoEs,如DeepSeekMoE-16B和Qwen1.5-MoE-A2.7B,快速度分别提高了1.50倍和1.71倍。

fe61c3ede8c8a985c02087b9cde95330.png

942567b67c67984b77bc76367283411a.png

ca51e66341eba9be9aa290cef38d60b7.png

00e18960042d4fbbe1be021044e052e7.png

文章链接:

https://arxiv.org/pdf/2404.05567.pdf

2.Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

在这项工作中,作者提出了Ferret的升级版本Ferret-v2,旨在解决Ferret在特定任务上的限制。Ferret-v2引入了三个关键设计:首先,它采用了一种任意分辨率的基础和指代方法,使其能够轻松处理更高的图像分辨率,从而提高了图像处理和理解的能力;其次,通过集成额外的DINOv2编码器,实现了多粒度的视觉编码,使模型能够学习更好和多样化的全局和细粒度视觉信息的基础上下文;最后,它引入了一个三阶段的训练范式,除了图像-标题对齐外,还增加了一个阶段进行高分辨率的密集对齐。实验结果表明,Ferret-v2在Ferret和其他最先进的方法上都实现了显著的改进,这归功于其高分辨率扩展和细粒度视觉处理能力。

e9a9b65ea229ecec46850ffe6f556208.png

1733e7dcddde7561cda8a1cc0c635be8.png

9055dcd4ed226146118eb4a206aa6bb4.png

891b2195362f285b4633001462f25b1d.png

af01680133bdf590748b5c2c28a9016e.png

文章链接:

https://arxiv.org/pdf/2404.07973.pdf

3.BRAVE: Broadening the visual encoding of vision-language models

视觉-语言模型(VLMs)通常由视觉编码器(例如CLIP)和解释编码特征以解决下游任务的语言模型(LM)组成。尽管取得了显著进展,但由于视觉编码器的能力有限,例如对某些图像特征的“盲点”、视觉幻觉等,VLMs仍存在一些缺陷。为了解决这些问题,作者研究了如何拓宽VLMs的视觉编码能力。首先,作者全面评估了几种带有不同归纳偏见的视觉编码器在解决VLM任务时的性能。观察到没有单一的编码配置能够在不同任务中始终实现最佳性能,而具有不同偏见的编码器可能表现出令人惊讶地相似的性能。受此启发,作者引入了一种名为BRAVE的方法,该方法将多个冻结编码器的特征整合成一个更加多功能的表示,可以直接作为冻结LM的输入。BRAVE在广泛的字幕生成和视觉问答(VQA)基准测试上实现了最先进的性能,并显著减少了VLMs的上述问题,同时需要的可训练参数比现有方法少,并具有更加压缩的表示。作者的结果突显了整合不同视觉偏见以实现对VLMs更广泛和上下文化视觉理解的潜力。

38942aefe1201a35d6a05abf69f00612.png

78db2b266bdcfe1552760d0a63d17c92.png

6acc89bc3c1776c3ba72e9f915e0569f.png

afb6f7e88e30a94e530faea81d01094c.png

a0f6af530db8f095d3cb5fb7eca416ae.png

文章链接:

https://arxiv.org/pdf/2404.07204.pdf

4.MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

对开发拥有高达万亿参数的大型语言模型(LLMs)的兴趣与资源效率和实际开销的关注相遇,尤其是考虑到实验的巨大成本,这引发了关注。这种情况突显了探索小型语言模型(SLMs)作为资源高效的替代方案的重要性。在这个背景下,作者介绍了MiniCPM,特别是1.2B和2.4B的非嵌入参数变体,它们不仅在各自的类别中表现出色,而且在与7B-13B的LLMs相当的能力上也表现出色。在关注SLMs的同时,作者的方法在未来LLM研究中展现了模型和数据维度的可扩展性。关于模型扩展,作者使用广泛的模型风洞实验进行稳定和最优的扩展。对于数据扩展,作者引入了一种Warmup-Stable-Decay(WSD)学习率调度器(LRS),有利于连续训练和领域适应。作者对WSD LRS中发生的引人入胜的训练动态进行了深入分析。有了WSD LRS,作者现在能够在模型和数据的两个轴上高效地研究数据-模型扩展规律,而无需进行大量的重新训练实验,从中得出比Chinchilla Optimal更高的计算最优数据-模型比例。此外,作者还介绍了MiniCPM家族,包括MiniCPM-DPO、MiniCPM-MoE和MiniCPM-128K,它们的出色表现进一步巩固了MiniCPM在多种SLM应用中的基础。

b487f5a9e39f23057a1b6f1bdd68ec7a.png

91889a60e276fb896b8716c2b912eb68.png

4f46cf7a454b27f71e6dc3da81665eee.png

28126eabeb72681bc40ac2127ac94b0e.png

文章链接:

https://arxiv.org/pdf/2404.06395.pdf

5. OpenEQA: Embodied Question Answering in the Era of Foundation Models

本文提出了一个现代的Embody Question Answering(EQA)的表述,将其视为理解环境以足够的能力用自然语言回答关于它的问题的任务。代理可以通过借助于情节记忆,例如智能眼镜上的代理,或通过主动探索环境,例如移动机器人,来实现这样的理解。作者伴随我们的表述提供了OpenEQA - 支持情节记忆和主动探索用例的第一个开放词汇基准数据集。OpenEQA包含来自超过180个真实环境的超过1600个高质量的人类生成的问题。除了数据集外,作者还提供了一个自动的LLM驱动的评估协议,该协议与人类判断有很好的相关性。使用这个数据集和评估协议,作者评估了几个最先进的基础模型,如GPT-4V,并发现它们明显落后于人类水平的表现。因此,OpenEQA成为一个直观、可测量且实用相关的基准测试,对当前一代AI模型提出了相当大的挑战。作者希望这能激发并刺激在Embody AI、对话代理和世界模型交叉领域的未来研究。

a5731e6280189afb7918483711ffc8ec.png

9cf92a8adb97bfdd4ad9237fe2a66f80.png

a8fb26d5d825ae08360661e9a36b9802.png

bbf35dfc88d2ff572288b66370210bc9.png

4b4c67275c4489774896f5ea7f4f09aa.png

文章链接:

https://open-eqa.github.io/assets/pdfs/paper.pdf

6.Autonomous Evaluation and Refinement of Digital Agents

作者展示了域通用的自动评估器可以显著提高代理在Web导航和设备控制方面的性能。作者尝试了多个评估模型,这些模型在推理成本、设计的模块化和准确性之间进行权衡。作者在几个流行的数字代理基准测试中验证了这些模型的性能,发现与Oracle评估指标之间的一致性在74.4%到92.9%之间。最后,作者使用这些评估器通过微调和推理时引导来提高现有代理的性能。在没有任何额外监督的情况下,作者在流行的WebArena基准测试上将最先进的性能提高了29%,并在一个具有挑战性的域迁移场景中实现了75%的相对改进。

1c0e620392b25dd447669a4feaf4fcf4.png

39e9b42a32573bae8545264337d51285.png

c457cbe62a269d69068d4da5b2ace48c.png

613ef0c00285ea42a1a3986162acfa4d.png

ca02fc961af78f02f3200ad15afe2d20.png

文章链接:

https://arxiv.org/pdf/2404.06474.pdf

7.Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs

大型语言模型(LLMs)虽然表现出色,但在知识密集型任务上容易出现幻觉。现有的研究提议使用从外部知识语料库检索的单个文本单位来增强LLMs,以减轻这个问题。然而,在许多领域中,文本是相互连接的(例如,一个文献图中的学术论文通过引文和共同作者连接),这形成了一个(带文本属性的)图。这样的图中的知识不仅编码在单个文本/节点中,还编码在它们的关联连接中。为了促进使用图形增强LLMs的研究,作者手动构建了一个名为GRBENCH的图推理基准数据集,其中包含1,740个可以使用10个领域图中的知识来回答的问题。然后,作者提出了一个简单有效的框架,名为Graph Chain-of-thought(GRAPH-COT),通过鼓励LLMs迭代地在图上推理来增强LLMs与图。每个GRAPH-COT迭代包括三个子步骤:LLM推理、LLM-图交互和图执行。作者在GRBENCH上对三个LLM主干进行了系统性实验,其中GRAPH-COT始终优于基线模型。

dbb25b389528b82db15b43cf7694a56d.png

8d770e2c48de9383492f14f1c4a14a9b.png

186524584467ded0f37f12285345f19b.png

9274063858068c605aba63c283bd6781.png

9cce789ed15279a1f293e24fd1e11652.png


文章链接:

https://arxiv.org/pdf/2404.07103.pdf

往期精彩文章推荐

26273d5a304bd6a4eb134c67a2809dac.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

3517f936121e422dbd7093af2d67ec2e.png

我知道你

在看

~

4a5b6769c9d8e1c38fc3cdd6e3894c91.gif

点击 阅读原文 观看更多!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/569059
推荐阅读
相关标签
  

闽ICP备14008679号