当前位置:   article > 正文

大模型论文周报丨来自清华大学、Meta AI、微软、KAUST等机构前沿科研动态

learning to compress prompts with gist tokens

点击蓝字

e272091b2b7c04a1912b152753785af4.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

大模型又可以称为Foundation Model模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代,其所带来的结果提升十分显著,超越了很多领域中针对研究问题设计特定算法实现的提升。

本周精选了10篇大模型领域的优秀论文,分别来自清华大学、Meta AI、微软、KAUST等机构。

为了方便大家阅读,只列出了论文标题、作者、AI华同学综述等信息,如果感兴趣可点击“论文详情页”查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

1.MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language

作者:Deyao Zhu,Jun Chen,Xiaoqian Shen,Xiang Li,Mohamed Elhoseiny

链接:https://www.aminer.cn/pub/6442336c4c80727584270e42/

AI综述(大模型驱动):本文研究了MiniGPT 4的强大多向语言生成能力,包括直接从手写文本中生成网站、识别图像中的笑话元素和从图像中提取食谱信息。实验结果表明,仅训练原始图像文本对才能产生不自然的语言输出,包括重复性和分段句子。因此,该模型在生成可靠性和总体可扩展性方面至关重要。此外,该模型还具有高度计算效率,只使用大约500万个对齐图像文本对进行建模。我们的代码、预先训练模型和收集数据库现已发布。

2.Safety Assessment of Chinese Large Language Models

作者:Hao Sun,Zhexin Zhang,Jiawen Deng,Jiale Cheng,Minlie Huang

链接:https://www.aminer.cn/pub/6441ff2eed329dcc6bb74b74/

AI综述(大模型驱动):本文介绍了一种中国语言模型的安全评估基准,涵盖8种常见安全场景和6种更具挑战性的指导攻击类型。该基准基于一个简单的过程,通过提供测试提示并评估模型生成的结果的安全性。在评估中,我们利用语言模型的强大评估能力,开发其作为安全评估者。此外,我们还发现,指令攻击更可能暴露所有LLMs的安全问题。为了推广安全、负责性和 Ethical AI的发展,我们公开发布了安全提示,包括100万个扩展的提示和答案。

3. Tool Learning with Foundation Models 

作者:Yujia Qin,Shengding Hu,Yankai Lin,Weize Chen等

链接:https://www.aminer.cn/pub/643e0ad50746dc40e341a274/

AI综述(大模型驱动):本文系统调查了工具学习问题,提出了一种通用工具学习框架,定义了一个通用工具学习框架,并探讨了现有工具学习研究的方向和挑战。从理解用户指导的角度,模型应该学习将复杂任务分解为多个子任务,动态地调整他们的计划,以有效地克服每个子任务,通过选择合适的工具来实现。此外,我们还讨论了如何训练模型以提高工具使用能力和促进工具学习。综述性地,本文希望这篇论文能激励未来工具学习研究。

4.Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

作者:Pan Lu,Baolin Peng,Hao Cheng,Michel Galley,Kai-Wei Chang,Ying Nian Wu,Song-Chun Zhu,Jianfeng Gao

链接:https://www.aminer.cn/pub/6440ad89ed329dcc6b838a0f/

AI综述(大模型驱动):本文介绍了Chameleon,一个以插入和玩的设计推理框架,用于解决大规模语言模型的挑战。Chameleon生成程序来构造各种工具,包括LLM模型、远程视觉模型、Web搜索引擎、Python函数和基于规则的模块。作为自然语言规划器的基础,Chameleon归纳并执行合适的工具序列,以生成最终响应。在两个任务上展示了Chameleon的适应性和有效性:科学测试和TabMWP。

5. Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

作者:Andreas Blattmann,Robin Rombach,Huan Ling,Tim Dockhorn,Seung Wook Kim,Sanja Fidler,Karsten Kreis

链接:https://www.aminer.cn/pub/643f5c4336af860e941aca50/

AI综述(大模型驱动):本文研究了潜在传播模型(LDM)在高分辨率视频生成中的应用。首先,我们使用LDM范式进行训练,然后将图像生成器转化为视频生成器,通过引入 temporal dimension到潜在空间传播模型,并对编码图像序列进行修剪。我们还比较了这些方法在多个真实世界应用程序上的表现,包括在野外驾驶数据的模拟和创作文本到视频建模。利用这一性质,我们证明了这种方法可以有效地应用于不同处理精度的文本到视频模型,从而开创了未来内容创作的方向。

6.Learning to Compress Prompts with Gist Tokens

作者:Jesse Mu,Xiang Lisa Li,Noah Goodman

链接:https://www.aminer.cn/pub/643e0ad60746dc40e341a410/

AI综述(大模型驱动):  Gisting是一种用于压缩语言模型的转换器和解码器,该转换器和解码器在输入上下文窗口中占据重要空间,并需要重新编码该模型以计算效率。作者提出了一种名为gisting的转换器和解码器,它能够将提示转换为小集的"gist"标记,用于计算效率。

7. Generative Disco: Text-to-Video Generation for Music Visualization

作者:Vivian Liu,Tao Long,Nathan Raw,Lydia Chilton

链接:https://www.aminer.cn/pub/643f5c3d36af860e941a8ee5/

AI综述(大模型驱动):本文介绍了一种生成神经网络(AI)系统,用于生成多语言模型和文本到图像模型的音乐视觉化。用户选择播放距离、时间、主角或风格的区域,并通过定义开始和结束提示来参数化其视觉化。该系统在业界研究中表现出愉快、易于探索和高度表达性。作者的研究结果表明,生成神经网络可以改善创作环境

8. Hyperbolic Image-Text Representations

作者:Karan Desai,Maximilian Nickel,Tanmay Rajpurohit,Justin Johnson,Ramakrishna Vedantam

链接:https://www.aminer.cn/pub/643f5c4336af860e941ad641/

AI综述(大模型驱动):本文提出了一种比较性模型MERU,它捕捉到图像和文本中的超变量表示。超变量空间具有合适的几何属性来嵌入树状数据,以便MERU能够更好地捕捉图像文本数据的底层层次。

9. Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation

作者:Jie An,Songyang Zhang,Harry Yang,Sonal Gupta,Jia-Bin Huang,Jiebo Luo,Xi Yin

链接:https://www.aminer.cn/pub/643e0ad60746dc40e341a425/

AI综述(大模型驱动):本文提出了Latent Shift,一种基于预先训练的文本到图像生成方法,其中包含一个自动编码器和一个U Net传播模型。学习视频传播模型在潜在空间中更有效,因为首先生成低分辨率视频,然后经过框架重叠和超分辨率模型的序列,整个管道非常复杂和计算昂贵。为了将从图像生成到视频生成扩展,之前的工作提出增加额外的模块,如1D时间的演化和时间注意层。

10. Visual Instruction Tuning

作者:Haotian Liu,Chunyuan Li,Qingyang Wu,Yong Jae Lee

链接:https://www.aminer.cn/pub/643e0ad60746dc40e341a515/

AI综述(大模型驱动):本文提出了第一个使用语言仅GPT 4生成多模式语言图像指导数据的尝试。通过对这些生成的数据进行指导,我们介绍了LLaVA:大型语言和视觉助理,一个终端训练的大型多模式模型,用于通用视觉和语言理解。我们的早期实验表明,LLaVA在看不见的图像/指令上表现出令人印象深刻的多模式聊天能力,有时在看不见的图像/指令上表现出多模式GPT 4的情况,并且与随机多模式指导结果相比具有85.1%的相对得分。

点击“阅读原文”查看论文详情页!

往期精彩文章推荐

2b44c0c01916ff0fea372ca021feb6cf.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1000多位海内外讲者,举办了逾550场活动,超600万人次观看。

8a2a0b2d7651ea7b1edbaa9609c5f21a.png

我知道你

在看

~

31519edd8b96caf7f15130c657932abd.gif

点击 阅读原文 查看论文详情页!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/468733
推荐阅读
相关标签
  

闽ICP备14008679号