当前位置:   article > 正文

百川、ChatGLM、MiniCPM、Llama作者等共论LLM关键问题 | 2024智源大会精彩回顾

东昱晓

大语言模型走到哪了?最近一年,不断迭代背后的关键因素有哪些?未来尚有哪些挑战和机遇?

在6月14日,北京智源大会大语言模型论坛中,

Llama3、百川大模型、ChatGLM、MiniCPM等国内外知名模型的作者们共同回答了关于大语言模型的一些关键问题,并给出了最新的论断:

北京大学助理教授贺笛:高效Transformer在解决复杂推理问题时表现不如标准Transformer。

ChatGLM作者东昱晓:大模型能力的涌现与预训练损失(loss)的降低相关,而非模型参数量或计算量的大小。

浙江大学副教授张宁豫:从GPT-2到GPT-4,大语言模型不断迭代,其背后的系统工程或许是关键因素。

面壁智能CTO曾国洋:模型的知识密度不断提升,更小参数量能保存更多知识,因此端侧模型必然发展。

百川智能研究员王炳宁:不能盲目依靠大数据和大参数,关键是单位时间内如何更好地压缩和处理数据。

中国人民大学教授赵鑫:未来数据可能成为大模型限制因素,现有数据未必是最佳选择,可以探索合成数据。

......

此外,在圆桌环节,研究者们针对更尖锐的问题进行了讨论,例如:推理是否是语言模型的独特能力?以语言为核心的大模型会是描述世界知识的最终模型吗?创造模型或算法的目标是否必须是为了模仿人类智能?......

关于更多大语言模型的探索,请欣赏↓

贺 笛:并非所有的大型语言模型都具备推理能力

b4f1072f19de01ceab710068657c1687.jpeg

贺 笛 | 北京大学助理教授

来自北京大学的贺笛做了“Not all LLMs possess the capability for Reasoning”(并非所有的大型语言模型都具备推理能力)的主题分享,他提到对大语言模型,大家探讨的核心问题主要集中在大语言模型具备的优势和应用场景,以及它背后关键技术的发展。其中,Transformer模型结构是算法层面重要助推力,目前Transformer在处理长序列数据时效率较低。因此,国内外许多研究致力于开发高效Transformer,希望提高其处理速度和性能。

贺笛表示,高效Transformer模型主要有三种基础的技术路线:通过减少键值对数量、降低维度和减少softmax计算。面对多种Transformer变种,选择合适的模型取决于任务需求。在讨论应用场景时,也存在三种情况:一是高效Transformer无法完成任务,而传统Transformer可以;二是高效Transformer可以完成任务,但需更多资源;三是考虑模型的表达能力。

在演讲中,贺笛着重对模型的表达能力进行了阐释:“在深度学习中,经典理论认为神经网络具有逼近任何连续函数的能力,但其假设条件过于理想化,实际应用指导意义有限。现代大模型输入输出为离散词元,不符合连续空间假设,更类似于序列映射,需新的理论方法来理解和应用。”

近年来,学术界主要关注大模型在解决推理、数学和规划问题上的表达能力,这些模型在这些领域展现出了比过去的BERT更强的性能。这些能力的实现,与序列到序列映射和低精度训练的实际情况有关。最新理论指出,语言模型中的思维链对于规划和推理非常重要。理论上,期望一个大型Transformer模型直接生成四则运算问题的答案是不现实的。

接着,贺笛对Transformer的数学能力进行了分析:理论上,如果让Transformer直接解决复杂数学问题,它的计算复杂度属于较低的TC0类,无法处理超出此范畴的问题。然而,如果通过思维链逐步生成中间步骤,Transformer的能力会显著增强,能够解决复杂度远超TC0的问题。结合COT,Transformer可以处理所有在多项式时间内可解决的问题,这大大扩展了其应用范围。

而面向动态规划问题,标准Transformer解决动态规划问题的复杂度为O(L^2),理论上可以解决此类问题。但许多高效的Transformer无法处理这些复杂问题,显示出固有的局限性。这意味着要让高效的Transformer具备解决推理问题的能力,其模型规模需超过标准Transformer。

b3d5e1b1fe340623840e927d53242133.png

对此,贺笛展示了两种特殊的高效Transformer:Sparse Transformer和Linear Transformer。结论显示,如果希望这些高效Transformer具备解决推理问题的能力,它们的模型宽度(即隐藏层维度)必须随输入长度L增长,增幅约为√L。即使在这种情况下,设置合适的宽度后,这些高效Transformer在解决动态规划问题时,其计算复杂度仍为O(L^2)。这意味着,为了使高效Transformer能够处理推理问题,它们的计算时间与标准Transformer无异。

另外,贺笛又做了实验,表明:我们对高效Transformer在解决复杂推理问题时表现不如标准Transformer,差距难以弥补。

最后,贺笛提到了另一条热门技术路线:使用混合模型,这些模型通过交替使用高效层和标准注意力层,兼具速度和理论优势,能够有效规避许多问题。

东昱晓:ChatGLM,理解与探索大模型能力涌现

fefe0a9ffa11ed1507f2508f5c1888ae.jpeg

东昱晓 | 清华大学副教授

清华大学副教授东昱晓给了《ChatGLM:理解与探索大模型能力涌现》的演讲报告。在对ChatGLM介绍之前,先阐述了“能力涌现”:Google和斯坦福的合作研究表明,随着模型参数量和计算量的增加,模型效果在达到百亿到千亿参数规模前,与随机猜测或普通模型无显著差异,但在达到此规模时,效果发生了质变,即“大模型能力涌现”。去年的NeurIPS杰出论文也指出,这种能力涌现与模型大小或计算量关系不大,而与评估标准有关:使用非线性或非连续标准时,能力涌现现象显著;而使用连续评分标准时,模型效果没有明显跃迁。

fa516f726c95b679ae53455e526daeab.png

具体在实验层面,东昱晓团队通过配置从3亿参数到320亿参数多个模型,并使用不同的数据量进行训练,找出了以下规律:

预训练损失与模型效果:随着loss的降低,模型效果提升;参数量与效果:在相同的loss情况下,不同参数大小的模型(1.55亿、60亿、320亿参数)取得的效果几乎相同。这意味着在特定任务上达到目标效果,关键因素是loss,而loss由模型参数和计算量决定。复杂任务上的表现:在较复杂的任务上,随着loss降低,模型效果在前期与随机猜测相似,但当loss降至约2.2到2.1之间时,模型效果突然涌现出某种能力,无论模型参数量大小。这表明模型参数量大小对效果影响较小,而loss是关键因素。

东昱晓团队实验验证了观点:即模型能力的涌现更多与预训练损失(loss)的降低相关,而非模型参数量或计算量的大小。

东昱晓表示,他们自去年10月以来专注于增强GM系列模型的智能体能力,尤其是在数据收集和设计方面,GLM模型与OpenAI相比存在较大差距。通过设计并开源智能体指令数据集,以及模拟环境和人类标注,团队成功提高了模型的智能体能力,仅用1800多条智能体轨迹数据,模型便能在多个环境中表现优异。他们还探索了上下文长度扩展的方法,确保模型在长短文本任务上的性能均衡。最新的进展包括通过Auto Web GM框架提升手机网页任务处理能力,展示了模型在自动化操作上的强大能力。尽管摩尔定律放缓,GPU性能依然在提升,未来需要进一步探索以实现更高效的模型扩展。

张宁豫:大语言模型知识机理与编辑问题

0c2e7ff87be746506596a4800d38f88d.jpeg

张宁豫 | 浙江大学副教授

浙江大学副教授张宁豫在报告《大语言模型知识机理与编辑问题》中,从知识的视角分析大型语言模型的机理。他主要回答了两个问题:1.语言模型如何存储和表达知识。回答这个问题有助于解决模型中知识过时、偏见和有毒信息等问题。2.如何精准高效地更新模型中的知识,对于实现可信应用至关重要。

张宁豫团队从整体论视角提出了知识回路假说,认为知识可通过多个组件的组合来表达。通过分析GPT-2等模型,发现知识回路中的不同组件分别表征关系、实体等信息,形成知识的综合表达。

张宁豫团队发现,模型中大量的MLP层在知识表征中起到了关键作用,验证了“知识神经元”假说,多个组件协同工作,共同完成知识的表达。实验显示,利用知识回路可以维持70%的模型性能,甚至在某些测试集上表现更佳。报告中,他还探讨幻觉问题和上下文学习现象,发现特定的注意力头在激活知识中起重要作用。基于这些规律,提出了高效更新和编辑模型知识的方法,借鉴了人类认知中的工作记忆和长期记忆概念,以实现更精准和可靠的模型应用。

b751d961e94bba785b5c2552c57064a3.png

此外,他还发现,直接修改模型的核心参数会影响其长期记忆,可能导致模型性能大幅下降。因此,尝试通过为模型创建一个工作记忆区来实现知识更新;在MLP层旁边构建了一个工作记忆回路,用于存储新知识,并设计了门控机制决定何时使用工作记忆或长期记忆。通过这种方式,可以在不影响模型原有性能的情况下进行多次知识更新,同时保持高准确率和低困惑度,解决了模型在长时间编辑过程中可能崩溃的问题。

他们还探索了如何精准地定位并移除模型中存在的有毒信息,并通过编辑特定区域的参数来降低模型生成有害内容的可能性。尽管初步实验表明效果良好,但发现当前方法在面对大量知识更新时仍有局限性。这目前大家对知识的存储和表达机理了解尚浅,未来需要进一步探索和完善这些技术,以实现更加可靠和安全的模型应用。

曾国洋:小钢炮MiniCPM是如何炼成的?

353b5dcc18b4bfed3b13c800c43beb1a.jpeg

曾国洋 | 面壁智能CTO

曾国洋在报告《小钢炮MiniCPM是如何炼成的?》中分享了训练 MiniCPM 系列模型中的技术发现和经验。他提到,苹果推出了Apple Intelligence,标志着端侧AI的发展趋势。随着时间推移,模型的知识密度不断提升,能够在更小参数量上保存更多知识,这预示着端侧模型的发展是必然的。

在训练MiniCPM过程中,他们对学习率调度进行了探究,在传统的cosine调度器之外,设计出了一个更简单高效的WSD调度器。它分为Warmup、Stable、Decay三个阶段,能在初始阶段加快学习速度,并在Decay阶段迅速降低损失。通过这种方式,成功地优化了模型的训练过程,提高了最终性能。

WSD优化器在训练模型时具备极大的灵活性,不需要预先设定截止时间,随时可以进行额外训练。实际应用中,它在进入decay阶段后能迅速降低损失。通过对MiniCPM 2B模型的训练和评估,面壁团队验证了WSD优化器不仅提高了训练效率,还能使模型达到或超越传统方法所训练模型的性能。

此外,他们还发现,模型的文本基座性能对多模态效果有显著影响,使其在支持图文多模态任务中表现出色。同时提出了一个大模型高清图编码独家技术LLaVA-UHD,使得MiniCPM-V 2.0能够以较低的内存成本和较好的推理速度处理高分辨率图像,更有利于在普通GPU显卡、个人PC甚至手机端侧设备上高效部署运行。

4bd4fce95bf7443577ebd7a04b72a34f.png

在具体实验中,通过模块化图像编码策略,将高清图切分为可变大小的切片,选择最佳切分进行高效和适应性的编码;这一步可以让模型适应极端长宽比图像输入,从而有效处理不同分辨率的图像,让小钢炮模型的多模态能力得到显著提升,特别是在OCR相关的复杂图文理解方面,达到业界领先水平。最后曾国洋表示,未来将继续推进端侧AI的发展,目标是实现GPT-3.5水平的模型在手机上的运行,并增加更多模态的支持。

王炳宁:大语言模型预训练的效率优化

e32eb8aacfaa16c7205f363e02718ffa.jpeg

王炳宁(线上) | 百川智能研究员

百川智能研究员王炳宁在线上做了《大语言模型预训练的效率优化》的报告。他提到,大模型时代的到来,扩展模型和数据规模是提升模型能力的关键。然而,仅仅扩大参数和数据量并不是最有效的办法,我们需要在单位时间内更好地压缩和处理数据,以提高模型的智能表现。

具体而言,大语言模型的发展趋势是不断扩大模型和数据规模,遵循scaling law来提升性能。近年来,模型参数量和计算量迅速增长,优化scaling law成为提升模型性能的核心策略。然而,尽管scaling law在理论上正确,实际拟合这些参数存在挑战,需大量样本,且拟合误差可能对结果产生显著影响。因此,我们不仅依赖模型和数据的扩展,还需要优化训练策略来提高效率和准确性。

目前学界研究了多种效率优化的方法,如通过改进Attention机制降低计算复杂度,以及探索新的模型结构。这些方法不仅在处理长文本上表现优异,也提升了Transformer模型的建模能力和整体效率。

a3efd61759b5b8543dda038fd29c6407.png

在大模型时代,尽管传统的循环神经网络(RNN)如LSTM等方法因扩展性差逐渐被transformer取代,但新型结构RWKV展现了优越的扩展性。RWKV利用空间状态机的概念,能够有效引入历史信息并固定空间状态,从而高效处理长文本和实时数据。它在大模型的应用中表现出色,尤其是在提升实时性能方面,证明了RNN在经过优化和结构改进后,仍然具有广阔的应用前景。

还有,新架构Mamba通过递归机制和状态空间模型(SSM-RNN)优化计算复杂度,并利用固定内存机制减少信息增长,从而提升效率。此外,他提到,大语言模型普遍存在冗余,利用类似于“彩票假说”的理论,只有在足够大的模型中才能找到最佳的子结构,这将是未来优化的关键。

优化器的选择也至关重要。尽管当前大语言模型的优化器普遍采用Adam并结合权重衰减。相比传统的SGD,Adam能更好地应对梯度变化,提升模型的优化效率。新型优化器如Sophia通过二阶近似进一步提升了效率。此外,模型的初始化和超参数调优,以及科学的学习率调度策略,也是提升训练效率的重要手段。

最后,王炳宁提到了数据工程的重要性:通过数据的筛选、采样和合成,可以在相同的训练时间内显著提升模型性。总之,无论是模型结构优化还是数据优化,核心目标都是在单位时间内降低损失,提升效率。未来的方向应减少人为干预,依靠大规模扩展来实现更高级别的智能。

Thomas Scialom:Large Language Models: Past, Present and Future

65aed5c96e69eb079a9ccc4a56058920.jpeg

Meta研究科学家,Llama2、3作者Thomas Scialom做了《大语言模型的昨天、今天和明天(Large Language Models: Past Present and Future)》的演讲,在报告中,Thomas  通过对 OpenAI、DeepMind、Meta 等顶级研究机构明星产品的分析完整梳理了 LLM 近年来从萌芽到爆发的发展脉络,重点剖析了 Llama 2 等模型成功背后的 SFT、RLHF 等技术的细节和作用,同时从多模态模型、Agent、机器人等角度分享了对 LLM 领域未来发展的预期。

更多精彩参见:Llama 2、3作者中国首讲!LLM 前世今生,AGI 是我们这代人的哥白尼革命丨2024智源大会回顾

圆桌讨论:大语言模型的挑战与机遇

468123815cff10ff2ecd25fc0f6085c6.jpeg

圆桌讨论由中国人民大学长聘副教授宋睿华主持,她先抛出了问题:每代GPT之间出现代际差的原因是什么?导致GPT-3、GPT-3.5、GPT-4以及未来的GPT-5能力不断提升的关键因素是什么?

曾国洋认为模型代际之间会有巨大的效果差异,实际上也是源于scaling law的作用。东昱晓认为数据质量、多样性也会影响模型性能。贺笛也赞同数据的重要性:除了预训练的数据质量外,微调时的数据质量也同样重要。张宁豫则认为,大模型背后的系统工程或许是关键因素。

接着数据的话题,主持宋睿华发出了“如果未来数据生成的速度没有超过大模型训练的数据需求速度,数据会不会成为大模型发展的瓶颈?”的担忧。

c69ab06ae75d57c59f2d759ec41f7c0b.jpeg

赵 鑫 | 中国人民大学教授,智源学者

对此,赵鑫表示,未来数据可能成为限制因素,现有数据未必是最佳选择,因此合成数据的应用和研究正变得越来越重要。

贺笛也表示,当前趋势是使用人造数据进行模型训练,利用人造数据也可以将泛化的知识点有机结合,可能突破现有数据的限制。

东昱晓说,目前大语言模型使用的数据主要来自互联网和过去三四十年的电子化记录,这些数据仅占人类生成文本总量的1%到5%,理论上还有20到100倍的数据空间可用。此外,对于提升模型的推理能力,关键在于数据的质量优化。

张宁豫补充道,合成数据对大模型非常重要,但是否应在现有信息空间内进行插值或进行外推仍是个开放问题。同时,合成数据带来了数据治理的挑战,因此,需要特别关注和解决合成数据的质量和来源问题。

随后,主持人宋睿华提问:以语言为核心的大模型会是描述世界知识的最终模型吗?

赵鑫从多模态角度阐述,语言模型可以扩展到多模态,主要有两种方法:一种是加视觉编码器,以语言模型为核心;另一种是统一处理所有模态数据,训练联合模型,这可能在复杂任务中有优势。但对于多模态数据(如图像、声音),目前基于下一个词元的生成方式可能不一定会是最优方案,未来可以探索更合适的建模方式。

曾国洋表示,单一模态的信息是有限的,尤其是对于需要视觉理解的三维空间知识和推理能力,未来可能需要更多的模态整合。

东昱晓提到,尽管语言对人工智能非常重要,但从小孩的例子来看,即使不会说话,他们也能理解应该做什么,这似乎表明语言不是绝对必要的。但另一方面,没有语言可能限制了认知能力,造成明显的局限。

从大语言模型的理解、推理能力角度,宋睿华提问到:推理是否是语言模型的独特能力?毕竟语言能清晰表达逻辑和抽象概念。是否只能通过语言实现,而不能通过其他模态进行?

东昱晓答到:推理可以通过语言模型和其他模态来实现。语言在进化过程中出现较晚,因此我们的祖先在没有语言的情况下,通过观察和理解也能进行推理,形成世界模型。但从技术角度来看,建模语言相对容易,而多模态建模目前仍缺乏更好的方法。

同时,东昱晓也抛出了疑问:为什么一定要建模世界模型?创造模型或算法的目标是否必须是为了模仿人类智能?

贺迪解释道:知识是广泛的概念,比如观察到苹果掉下来是知识,动物也能感知,而人类用语言描述这些现象,例如“万有引力定律”。自然语言模型非常必要,因为它是描述知识最干净的方式,所以为了全面覆盖知识,我们需要更全面的世界模型。

- 点击“查看原文” ,观看完整大会视频回放 -

bb8561fef7b7991cbb30cdc2368f449b.jpeg

Llama2、3作者中国首讲!LLM前世今生,AGI是我们这代人的哥白尼革命

d382302eb6be1a100290f93f59df7bb4.jpeg

GPT-4o、SAM、DiT、DCN、SegGPT作者共话多模态模型前沿进展

3440af684390438af0efd759f175da1f.jpeg

Sora团队负责人Aditya Ramesh对话谢赛宁丨压缩一切!视觉与语言模态的融he

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号