赞
踩
1.GLM-4 vs GPT-4,辅助编程哪家强?
来自悉尼大学、深兰科技(上海)、中国创造学会和上海交通大学的研究团队对 GPT-4 和 GLM-4 做了比较分析,探索将 GenAI 作为编程工具的最佳实践。通过评估不同复杂程度的提示策略发现,最简单直接的提示策略能产生最佳的代码生成结果。此外,添加类似于 CoT 的初步确认步骤将进一步提高成功率。研究结果显示,虽然 GPT-4 略微优于 GLM-4,但对于普通用户来说,两者的差距微乎其微。
在其简化的评估模型中,研究团队发现与传统编程规范相比,代码生成效率显著提高了 30 到 100 倍。GenAI 辅助编码将引发编程领域的范式转变,这就要求开发人员承担起围绕监督和指导 GenAI 的新角色,并更加专注于制定高层次目标和参与创新。
论文链接:
https://arxiv.org/abs/2402.12782
2.苹果新研究:欺骗大模型有多容易?
多模态大型语言模型(MLLMs)取得的巨大进步并没有使其免受挑战,尤其是在处理提示中的欺骗性信息时,这种情况下会产生幻觉式回应。为此,来自 Apple 公司的研究团队提出了一个新基准——MAD-Bench,它包含 850 个测试样本,分为 6 个类别(如不存在的物体、物体数量、空间关系和视觉混淆等)。研究团队对流行的 MLLMs 进行了全面分析,如从 GPT-4V、Gemini-Pro 到 LLaVA-1.5 和 CogVLM 等开源模型。
研究发现 GPT-4V 与其他模型之间存在明显的性能差距;而之前的鲁棒指令微调模型,如 LRV-Instruction 和 LLaVA-RLHF 等在这个新基准上无效。除 GPT-4V 在 MAD-Bench 上达到了 75.02% 的准确率之外,其他模型的准确率都在 5% 到 35% 之间。当在欺骗性提示中增加一段话,鼓励模型在回答问题“前三思而后行”时,这种简单的方法甚至可以将准确率提高一倍;但是,绝对数字仍然太低,无法令人满意。该项研究希望可以将 MAD-Bench 作为一个有价值的基准来激励进一步的研究,从而提高模型对欺骗性提示的应变能力。
论文链接:
https://arxiv.org/abs/2402.13220
3.神经网络扩散(Neural Network Diffusion)
扩散模型在图像和视频生成方面取得了很大成功。来自新加坡国立大学、Meta AI 和加州大学伯克利分校的研究团队提出,扩散模型也能生成高性能的神经网络参数。
该方法使用了一个自动编码器和一个标准的潜在扩散模型。自动编码器提取训练网络参数子集的潜在表示,训练扩散模型从随机噪音中合成这些潜在参数表示,随后生成新的表示,再通过自动编码器的解码器,其输出可用作新的网络参数子集。
在各种架构和数据集上,这一扩散过程在保持额外成本极低的同时,始终能够生成与训练有素的网络性能相当或更高的模型。研究发现,生成的模型与训练有素的网络性能不同。该研究有助于对扩散模型的多样化使用进行更多探索。
论文链接:
https://arxiv.org/abs/2402.13144
GitHub 地址:https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion
4.预指令微调PIT:让大模型成为更好的学习者
为了让基于大型语言模型(LLMs)的助手有效地适应不断变化的信息需求,必须通过对新数据的持续训练来更新它们的事实知识。目前的标准方法包括在新文档上进行持续的预训练,然后在问答(QA)对上进行指令微调。
来自 Meta FAIR 实验室、卡内基梅隆大学和华盛顿大学的研究团队提出,尽管文档的困惑度(perplexity)已经降到了最低,这种方法训练出来的 LLMs 在回答问题时仍然很吃力。QA 对一般都比较简单,而文档则比较复杂,许多事实陈述错综复杂地交织在一起。因此,研究团队假设在继续在文档上进行预训练之前,让 LLMs 接触 QA 对是有益的,这样在对复杂文档中的知识进行编码的过程中,就能考虑到如何通过问题来获取这些知识。
在此基础上,研究团队提出了预指令微调(pre-instruction-tuning,PIT),一种在文档训练之前对问题进行指导微调的方法。这与标准的指令微调在文档训练之后学习如何提取知识形成了鲜明对比。实验表明,PIT 显著增强了 LLMs 从新文档中吸收知识的能力,比标准指令调微调高出 17.8%。
论文链接:
https://arxiv.org/abs/2402.12847
5.AI生成视频泛滥?近乎完美的检测和追踪方法来了
随着视频生成技术的飞速发展,人们可以方便地利用视频生成模型来制作符合自己特定需求的视频。然而,人们也越来越担心它们可能被滥用于制造和传播虚假信息。
来自弗吉尼亚大学和亥姆霍兹信息安全中心(CISPA)的研究团队提出了一套在虚假视频生成的整个生命周期中的缓解措施——VGMShield。
研究团队首先从虚假视频检测入手,试图了解生成的视频是否具有唯一性,能否将它们与真实视频区分开来;然后研究了追踪问题,即将虚假视频追溯到生成它的模型。为此,研究团队利用侧重于时空动态的预训练模型作为骨干,来识别视频中的不一致之处。在七个最先进的开源模型上的实验证明了当前的模型仍然无法完美处理时空关系,因此我们可以近乎完美地完成检测和追踪。
考虑到未来生成模型的改进,研究团队还提出了一种预防方法:向图像中添加不可见的扰动,使生成的视频看起来不真实。与虚假视频检测和追踪相结合,这一多层面解决方案可以有效缓解视频生成模型的滥用。
论文链接:
https://arxiv.org/abs/2402.13126
项目地址:
https://github.com/py85252876/MMVGM
6.ModelGPT:大模型可以任意定制了,还快270倍
大型语言模型(LLMs)通过自动化日常任务给各个领域带来了革命性的变化。然而,它们在满足用户多样化的特定需求和以简化普通用户对人工智能(AI)模型的使用方面仍然存在困难。
为此,来自浙江大学的研究团队提出了 ModelGPT,它旨在利用 LLMs 的功能,根据用户提供的数据或任务描述确定并生成专门定制的 AI 模型。考虑到用户需求,ModelGPT 能够以比以往范式(如全参数或 LoRA 微调)快 270 倍的速度提供量身定制的模型。在 NLP、CV 和 Tabular 数据集上进行的综合实验证明了 ModelGPT 在使 AI 模型更易于访问和用户友好方面的有效性。
论文链接:
https://arxiv.org/abs/2402.12408
项目地址:
https://github.com/IshiKura-a/ModelGPT
7.DeepMind新研究:通过剪枝让智能体提高参数效率
最近的研究表明,深度强化学习智能体很难有效利用其网络参数。来自 Google DeepMind、魁北克人工智能研究所 Mila 和蒙特利尔大学的研究团队,利用先前对稀疏训练技术优势的了解,证明渐进式幅度剪枝能让智能体最大限度地提高参数效率。这表现出了一种 “scaling law”,只需使用全部网络参数的一小部分,网络的性能相比传统网络就可以显著提高。
论文链接:
https://arxiv.org/abs/2402.12479
8.200多万tokens!大模型上下文窗口又双叒叕长了
长上下文窗口是大型语言模型(LLMs)的理想功能。然而,由于微调成本高、长文本稀缺以及新 token 位置引入的灾难性值,目前的扩展上下文窗口仅限于大约 128k tokens。来自微软的研究团队提出了 LongRoPE,它首次将预训练 LLMs 的上下文窗口扩展到了 2048k tokens,在 256k 的训练长度内只需 1k 个微调步骤,同时保持了原始短上下文窗口的性能。
该项研究包括三项关键创新:第一,通过高效搜索识别并利用位置插值中的两种不均匀性形式为微调提供更好的初始化,并在非微调情况下实现了 8 倍扩展;第二,研究团队提出了一种渐进扩展策略,首先微调 256k 长度的 LLM,然后在微调扩展的 LLM 上进行第二次位置插值,从而实现 2048k 上下文窗口;第三,在 8k 长度上重新调整 LongRoPE 来恢复短上下文窗口性能。
在 LLaMA2 和 Mistral 上对各种任务进行的大量实验证明了这一方法的有效性。通过 LongRoPE 扩展的模型保留了原始架构,只对位置嵌入稍作修改,并且可以重复使用大部分已有的优化。
论文链接:
https://arxiv.org/abs/2402.13753
9.Kuaiji:中国首个会计大模型
来自武汉大学、香港大学、江南大学、北京大学和无锡智泓科技有限公司的研究团队及其合作者,提出了一个定制的会计大型语言模型——Kuaiji。Kuaiji 利用包括持续的预训练和监督微调过程的 Baichuan 框架进行了细致的微调。在 CAtAcctQA(一个包含大量真实会计师与客户对话的数据集)的支持下,Kuaiji 表现出了卓越的准确性和响应速度。研究团队将 Kuaiji 打造成领先的开源中文会计大模型,并通过真实的会计场景验证了其有效性。
论文链接:
https://arxiv.org/abs/2402.13866
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。