赞
踩
大家好,今日必读的大模型论文来啦!
1.Design2Code:我们离前端工程自动化还有多远?
近年来,生成式人工智能取得了突飞猛进的发展,在多模态理解和代码生成方面实现了前所未有的能力。多模态大型语言模型(LLMs)可以直接将可视化设计转换为代码实现,开创了前端开发的新模式。
来自微软、Google DeepMind、斯坦福和佐治亚理工学院的研究团队将其形式化为一个 Design2Code 任务,并进行了全面的基准测试。具体来说,研究团队手动策划了一个包含 484 个不同真实网页的基准测试案例,并开发了一套自动评估指标,从而评估当前的多模态 LLMs 在截图作为输入的情况下,生成直接呈现给定参考网页的代码实现的能力。
研究团队还通过全面的人工评估对自动指标进行了补充。他们开发了一套多模态提示方法,并在 GPT-4V 和 Gemini Pro Vision 上展示了这些方法的有效性。然后进一步微调了一个开源模型——Design2Code-18B,它成功地和 Gemini Pro Vision 的性能相匹配。人工评估和自动度量都表明,与其他模型相比,GPT-4V 在这项任务中表现最佳。此外,在 49% 的情况下,标注者认为 GPT-4V 生成的网页可以在视觉外观和内容方面取代原始参考网页;而令人惊讶的是,在 64% 的情况下,GPT-4V 生成的网页被认为比原始参考网页更好。
细分指标表明,开源模型在回忆输入网页的视觉元素和生成正确的布局设计方面大多比较落后,而文本内容和着色等方面则可以通过适当的微调得到大幅改进。
论文链接:
https://arxiv.org/abs/2403.03163
项目地址:
https://salt-nlp.github.io/Design2Code/
2.谷歌、斯坦福提出RT-Sketch:将手绘草图用于目标条件模仿学习
在目标条件模仿学习(IL)中,自然语言和图像通常被用作目标表征。然而,自然语言可能含糊不清,图像也可能过于具体。来自斯坦福、Google DeepMind 和 Intrinsic 公司的研究团队提出将手绘草图作为视觉模仿学习中的目标指定模式。草图像语言一样便于用户即时提供,但与图像类似,草图也能帮助下游策略实现空间感知,甚至超越图像,将任务相关对象与任务无关对象区分开来。
研究团队提出了一种以目标为条件的操作策略——RT-Sketch,它将所需场景的手绘草图作为输入,并输出操作。他们在成对轨迹数据集和相应的合成目标草图上训练 RT-Sketch,并通过在铰接式台面上重新排列桌面物品的六种操作技能对这种方法进行了评估。
实验结果表明,RT-Sketch 能够在简单的环境中完成与图像或语言条件智能体相似的操作,而在语言目标模糊或存在视觉干扰的情况下,RT-Sketch 则具有更强的鲁棒性。此外,RT-Sketch 能够解释不同程度的草图(从最简单的线条图到详细的彩色图)并对其采取相应的行动。
论文链接:
https://arxiv.org/abs/2403.02709
项目地址:
https://rt-sketch.github.io/
3.Google DeepMind新研究:教机器人学习动作语言
语言提供了一种将复杂概念分解成可理解片段的方法。机器人模仿学习领域的最新研究使用语言条件策略,根据视觉观察和语言中指定的高级任务来预测动作。这些方法利用自然语言的结构,在多任务数据集中语义相似的任务(如 “拿起可乐罐”和“拿起苹果”)之间共享数据。然而,随着任务在语义上越来越多样化(如 “拿起可乐罐”和“倒杯子”),任务之间的数据共享变得越来越困难,因此学习将高级任务映射到动作需要更多的演示数据。
为了在任务和动作之间架起桥梁,来自 Google DeepMind 和斯坦福的研究团队提出教机器人学习动作语言,用更精细的短语(如 “向前移动手臂”)来描述低级动作。作为任务和动作之间的中间步骤,预测这些语言动作迫使策略学习看似不同的任务中低级动作的共享结构。此外,以语言动作为条件的策略可以很容易地在执行过程中通过人类指定的语言动作进行修正。这为灵活的策略提供了新的范例,使其能够从人类对语言的干预中学习。
RT-H 方法利用语言动作构建了一个动作层次结构:它首先学习预测语言动作,然后以语言动作和高级任务为条件,在所有阶段利用视觉上下文预测动作。RT-H 利用这种语言-动作层次结构,通过有效利用多任务数据集来学习更稳健、更灵活的策略。研究表明,这些策略不仅能对语言干预做出响应,还能从语言干预中学习,其效果优于从远程操作干预中学习的方法。
论文链接:
https://arxiv.org/abs/2403.01823
项目地址:
https://rt-hierarchy.github.io/
4.图像-视频生成新方法:高保真,无需微调,即插即用
图像到视频(I2V)生成任务在开放领域中总是难以保持高保真。传统的图像动画技术主要集中在特定领域,如人脸或人体姿势,很难推广到开放领域。最近几个基于扩散模型的 I2V 框架可以为开放域图像生成动态内容,但无法保持保真度。
保真度低的两个主要因素是图像细节的丢失和去噪过程中的噪声预测偏差。为此,阿里巴巴团队提出了一种可应用于主流视频扩散模型的有效方法。这种方法通过补充更精确的图像信息和噪声矫正来实现高保真。具体来说,在给定图像的情况下,该方法首先在输入图像潜在表示(latent)中添加噪声以保留更多细节,然后通过适当的校正对噪声潜在表示进行去噪处理,以减轻噪声预测偏差。这一方法无需微调,即插即用。实验结果表明,它能有效提高生成视频的保真度。
论文链接:
https://arxiv.org/abs/2403.02827
项目地址:
https://noise-rectification.github.io/
5.TripoSR:从单张图像快速重建 3D 物体
来自 Stability AI 和 Tripo AI 的研究团队在一份技术报告中提出了 TripoSR,一个利用 Transformer 架构快速生成前馈 3D 的 3D 重建模型,可在 0.5 秒内从单个图像生成 3D 网格。TripoSR 以 LRM 网络架构为基础,对数据处理、模型设计和训练技术进行了大幅改进。
在公共数据集上的评估表明,与其他开源替代方案相比,TripoSR 在定量和定性方面都表现出了卓越的性能。TripoSR 根据 MIT 许可发布,旨在为研究人员、开发人员和创意人员提供 3D 生成式人工智能的最新进展。
论文链接:
https://arxiv.org/abs/2403.02151
项目地址:
https://github.com/VAST-AI-Research/TripoSR
6.Wukong:为大规模推荐建立Scaling Law
Scaling laws 在持续提高模型质量方面发挥着重要作用。但由于其升级机制效率低下,迄今为止的推荐模型并没有表现出类似于在大型语言模型领域所观察到的规律。这一局限性为这些模型适应日益复杂的现实世界数据集带来了巨大挑战。
Meta 团队提出了一种纯粹基于堆叠因式分解机(stacked factorization machines)的有效网络架构,以及一种协同升级策略来建立推荐领域的扩展法则,它们共同称为 “Wukong”。“Wukong”的独特设计使其能够通过更高更宽的层次来捕捉多样化的任意顺序的交互。
研究团队在六个公共数据集上进行了广泛的评估,结果表明“Wukong”在质量上始终优于最先进的模型。在一个内部大规模数据集上对“Wukong”可扩展性的评估表明,其在质量上保持了对一流模型的优势,同时在模型复杂度上保持了两个数量级的 Scaling laws,超过了 100 Gflop 或相当于 GPT-3/LLaMa-2 规模的总训练计算量,这是以前的技术无法达到的。
论文链接:
https://arxiv.org/abs/2403.02545
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。