赞
踩
超越AF2?Iambic、英伟达、加州理工学院开发多尺度深度生成模型,进行状态特异性蛋白质-配体复合物结构预测
由蛋白质和小分子配体形成的结合复合物无处不在,对生命至关重要。虽然最近科学家在蛋白质结构预测方面取得了进展,但现有算法无法系统地预测结合配体结构及其对蛋白质折叠的调节作用。
为了解决这种差异,AI 制药公司 Iambic Therapeutics、英伟达(Nvidia Corporation)以及加州理工学院(California Institute of Technology)的研究人员提出了 NeuralPLexer,这是一种计算方法,可以仅使用蛋白质序列和配体分子图输入直接预测蛋白质-配体复合物结构。
NeuralPLexer 采用深度生成模型以原子分辨率对结合复合物的三维结构及其构象变化进行采样。该模型基于扩散过程,该过程结合了基本的生物物理约束和多尺度几何深度学习系统,以分层方式迭代采样残留级接触图和所有重原子坐标。
NeuralPLexer 预测与酶工程和药物发现中重要靶点的结构测定实验相一致,其在蛋白质组规模上加速功能蛋白和小分子设计方面拥有巨大潜力。
该研究以「State-specific protein–ligand complex structure prediction with a multiscale deep generative model」为题,于 2024 年 2 月 12 日发布在《Nature Machine Intelligence》。
静态蛋白质结构预测不足以支持药物设计
深度学习在从一维氨基酸序列预测蛋白质结构方面取得了巨大进步。最先进的蛋白质结构预测网络,例如 AlphaFold2 (AF2),采用基于蛋白质结构的进化、物理和几何约束的预测管线。具体来说,从多重序列比对(MSA)或蛋白质语言模型(PLM)和专门的神经网络中提取的进化约束,与基于序列的信息和几何表示系统地结合,从而实现端到端的三维(3D)结构预测 。
虽然在预测蛋白质静态结构方面取得了巨大成功,但蛋白质折叠问题的这种单一结构公式提供了有关蛋白质功能的不完整信息,并且还被发现不足以用于基于结构的药物设计。
生成式深度学习是一种替代范式
然而,与受体构象的实质性变化相结合的蛋白质-配体复合物的计算模型,受到模拟缓慢蛋白质状态转变的高昂成本的阻碍。生成式深度学习的最新发展提供了一种替代范式,并且在理解复杂视觉和语言领域方面取得了实质性进展。
生成建模的两个值得注意的策略包括(1)自回归模型,在序列数据(例如自然语言和基因组学)的 Transformer 网络中广泛采用,基于顺序过程;(2) 基于扩散的生成模型,利用随机过程通过从先验分布中采样并使用神经网络逐步逆转噪声过程来生成数据。
科学家已经证明,深度生成模型能够产生具有经过实验验证的功能的从头设计的蛋白质,包括用于蛋白质序列设计的语言模型和用于蛋白质主链生成的扩散模型。扩散模型可以有效地模拟蛋白质骨架之外的分子结构,特别是在分子对接和基于结构的药物设计方面。
然而,目前为止,还没有团队开发出能够以原子分辨率直接预测结合复杂结构且精度可与结构测定实验相媲美的生成模型。
深度生成模型预测蛋白质-配体复杂结构
在最新的研究中,Iambic、英伟达、加州理工学院团队介绍了 NeuralPLexer,这是一种计算系统,它使用由生物物理归纳偏差提供的深度生成模型来预测蛋白质-配体复杂结构。该方法可以以从 PLM 获得的辅助特征和从实验解析的同源物或计算模型检索的模板蛋白质结构为条件,直接生成给定蛋白质序列和配体分子图输入的结合复合物的结构集合。
图示:NeuralPLexer 能够准确预测蛋白质-配体复合物的结构和构象变化。(来源:论文)
预测管线和底层神经网络架构都旨在反映生物分子复合物的多尺度层次结构。具体而言,NeuralPLexer 包括: whaosoft aiot http://143ai.com
(1)基于图的网络,将单个小分子和氨基酸图的原子级化学和几何特征编码为张量表示,通过受物理启发的网络架构实现,该网络架构经过百万级分子构象和生物活性数据库的训练;
(2)接触预测模块(CPM),在最近的视觉语言模型和折叠预测网络的推动下,使用基于注意力的网络生成残留尺度的分子间距离分布、粗粒度接触图和相关的配对表示;
(3)等变结构去噪模块 (ESDM),用于生成以原子尺度和残留尺度网络的输出为条件的结合复杂原子结构,使用等变的结构化去噪扩散过程,并保留蛋白质和配体分子的手性约束。
在对蛋白质-配体盲对接进行评估时,与 PDBBind2020 基准上性能最佳的现有方法相比,NeuralPLexer 将预测成功率提高了高达 78%。在针对挑战性目标的配体结合位点设计中,NeuralPLexer 仅使用计算生成的截短支架即可有效恢复高达 45% 的结合位点结构。
与现有的基于物理的方法相比,这代表了成功率的质的提高。此外,NeuralPLexer 在选择性预测受诱导拟合结合或构象选择影响的蛋白质结构方面比现有方法表现出系统优势;在两个具有大结构可塑性的配体结合蛋白基准数据集上,NeuralPLexer 优于最先进的蛋白质结构预测算法 AF2,最高的模板建模得分 (TM-score)(平均 0.906)以及配体结合后发生重大构象变化的结构域的准确性提高了 11-13%。
NeuralPLexer 模拟配体结合和蛋白质结构变化的多功能能力可以快速表征构象景观,从而促进更好地理解控制蛋白质功能的分子机制,从而有助于在蛋白质组规模上识别治疗干预和蛋白质工程的非常规靶点。
结语
作为一种数据驱动的方法,NeuralPLexer 具有通用性,并且可以通过整合更好的实验和生物信息数据来持续改进。来自更广泛社区的训练和基准数据集的管理的改进,可能能够对没有实验确定的同源物蛋白质家族进行更系统的分析,并将该方法扩展到更具挑战性的系统,例如翻译后修饰和多态大型异聚蛋白质复合物。
该研究为探索这些方向提供了通用的计算框架,为快速准确的蛋白质-配体复合物结构预测铺平了道路,从而促进结构生物学、药物发现和蛋白质工程领域的进步。
论文链接:https://www.nature.com/articles/s42256-024-00792-z
如果考试题太简单,学渣也能拿一百昏。在 AI 圈,我们应该拿怎样的「试卷」来检验一直处于流量 C 位的大模型的真实水平?是高考题吗?当然不是!
也有些人认为,在各种 Benchmark 榜单上,谁排第一谁最强。
其实并非如此,有时候,越「权威」的榜单就越容易被策略性刷榜。
因此,模型的「强」不能只是在某个 Benchmark 上排名第一,而是要在多个维度上都很能打。
近日,全球领先的国际数据公司(IDC) 最新发布的大模型实测报告《中国大模型市场主流产品评估,2024》从基础能力到应用能力 7 大维度对 11 家大模型厂商的 16 款市场主流产品进行实测。
报告显示,百度文心大模型整体竞争力位于领先水平,产品能力处于第一梯队,是唯一一家在 7 大维度上均为优势厂商的企业。文心一言、文心一格在问答理解类、推理类、创作表达类、数学类、代码类等基础能力,toC 通用场景类、toB 特定行业类等应用能力等 7 大维度均具备领先优势。其他评测厂商中,阿里获 6 项优势维度,OpenAI GPT-4 和商汤分获 5 项。
IDC《中国大模型市场主流产品评估,2024》
要知道这份实测报告不同于以往的评测榜单:
首先,IDC 成立了专门的产品测试团队、邀请外部专家团队,在审核委员会的监督下,保证了评估结果的真实度。
其次,测试的全面性。在 IDC 列出的厂商里,有很多我们熟悉的公司,国外厂商如 OpenAI;国内厂商包括阿里、商汤、科大讯飞、百川、智谱、昆仑万维等 11 家大模型厂商的 16 款产品参与了本次评估。从这可以看出,IDC 集结的这批模型中,可谓是高手云集,想要在这当中拔得头筹,没有两把刷子是不可能占据一席之地的。
除了涵盖众多厂商,IDC 测试题目也涵盖方方面面,分为基础能力和应用能力两个大类共 7 个维度:基础能力包括问答理解类、推理类、创作表达类、数学类、代码类;应用能力主要包含 toC 通用场景类和 toB 特定行业类,每一类单独计分。
IDC 题目类型
7 项维度,主流大模型全面大比武
过去一年,说 AI 领域是「百模大战」一点也不为过。特别是国内,从科技巨头到创业公司都推出了自己的大模型产品。
此次 IDC,就对业内知名的主流基础大模型产品进行了评比。
从 IDC 报告的结果来看,百度文心一言 4.0、文心一格以及 OpenAI 、阿里、商汤、科大讯飞发布的大模型产品位于第一梯队;紧随其后的是百川、智谱、昆仑万维位于第二梯队;联汇、云知声、云从科技暂列第三梯队。
细分来看,在 IDC 评测的 7 个维度上,百度文心大模型在每一项指标上都被列为优势厂商,没有短板,可以说是一位全能选手。其他厂商的大模型均未拿到全优,在一个或多个方面存在短板。阿里获得 6 项优势维度排名第二,OpenAI GPT-4 和商汤获得 5 项优势排名第三。举例来说,排名靠前的 OpenAI 以及阿里在数学类题目上不及百度,商汤在 toC 通用场景类题目上落选。
从实际的模型效果和迭代速度来看,文心大模型在文档 / 长文能力、检索增强、创作智能体等技术和产品创新上比较可圈可点。
拆解基础能力
IDC 咨询发布的基础大模型产品实测结果
百度、GPT-4、阿里、商汤在问答理解类被列为优势厂商。这类题目主要考察模型理解和回答人类问题的能力,IDC 从常识、专业知识、多语言、多模态、角色扮演 + 多轮对话、安全陷阱进行考察。
在安全陷阱这个细分维度,只有百度文心大模型入选。我们推测,这是因为百度在大模型安全问题上进行了全面的研究,确保服务安全。一直以来围绕大模型讨论最多的就是安全和隐私,IDC 的结果表明当前安全陷阱问题仅有少数产品能够识别地较好,需要进一步的优化。
如今大模型的发展方向朝着多模态前进,不但要求大模型在文本上表现良好,在图像、语音等多个方面也要拿出成绩。百度在多模态和角色扮演 + 多轮对话上也表现优异。
推理类题目主要考察大模型基于已知信息推出新结论的思维方式。百度在归纳推理、类比推理两项指标上入选优势厂商。归纳和类比推理通常涉及抽象和高级思维能力,这就需要模型在进行推理时,应能处理并整合来自不同源的信息,包括直接数据和推断出的隐含信息,从而确保模型推理的准确性。
随着生成式 AI 的快速发展,创作表达成为大模型一较高下的赛道。一篇文章只写了开头不知该如何续写、不会起标题…… 这时大模型都能帮你完成。我们以文本风格迁移为例, 这项任务要求模型必须准确理解原始文本的内容和意图,这是风格转换的基础。模型需要识别和理解不同的写作风格,这要求模型能够区分例如学术文本、商业报告、新闻报道或口语等不同类型的语言风格。模型在理解原文内容和目标风格的基础上,生成的文本需要保持一致性和连贯性等等。这些都对大模型背后的技术提出了很高的要求。
这一维度的比较结果表明百度在内容创作、生成质量和速度等方面展现出优势,这将在数字内容市场中具有更强的竞争力。
从 IDC 的测试来看,国产大模型在问题解答、推理和创作表达上的成熟度在逐步升高。但在数学和代码这两个基础能力维度上得分率整体较低。
一直以来,大模型被划分为数学上的「差等生」。在数学任务上,大模型不仅需要逻辑推理能力,还需要对问题有很好的解析和理解、抽象出各个问题的逻辑关系,最后给出准确的答案。IDC 报告显示,百度大模型在数学类任务上体现出较强的体系化思维、逻辑思维和抽象思维能力。
代码能力是评估大模型理解、逻辑、推理、生成等综合能力的体现,其已成为程序员辅助编程的必备助手。在代码类所有 6 个细分维度中,百度均入围优势厂商,在代码生成、编程翻译、代码补全、代码纠错等多个方面表现优异。
应用能力评估
除了基础能力,IDC 还对大模型的应用能力进行了全方位测评,主要包括两个方面:面向普通用户服务 ToC,以及面向企业用户服务 ToB。
在 ToC 类场景下,入选的厂商非常少,但百度在这两项指标上均入选。评测结果显示,百度文心大模型、GPT-4 等在搜索、写邮件、文生表图等办公场景下具备优势,此外文心大模型在衣食住行、生活服务、闲聊创意等生活助手场景中被选为优势厂商。
在 toB 特定行业类任务上,文心大模型已经在金融、法律、科研等多个行业落地。GPT-4 在工业、零售电商等落地较好。
技术是通用大模型立身之本
许多人都是从 2022 年底 ChatGPT 发布之后才听过大模型一词。
但其实 ChatGPT 这类大模型产品的爆火背后是 NLP 领域多年技术积累的结果,而这个过程中国科技公司如百度等也从未缺席。
例如,百度早在 2019 年 3 月,就发布了文心大模型 1.0 版,现已升级到文心大模型 4.0 版,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着显著提升。
这些提升靠什么做到的?主要是百度在芯片、框架、模型和应用上的全栈布局,尤其是飞桨深度学习平台和文心大模型的联合优化。
具体来说,在训练方面,百度采用块状稀疏掩码注意力计算、超长序列分片并行、灵活批次虚拟流水并行、并行计算与通信深度联合优化等技术,提高模型整体训练效率和性能;在推理部署方面,百度创新了 INT4 无损量化加速、注意力机制协同优化、精调模型集约化部署、异构多芯混部推理等技术,在模型精度、推理性能、部署成本等方面均取得了较好成果。
相比 2023 年文心一言发布时,文心大模型训练效率提升到当时的 5.1 倍,推理性能提升到 105 倍。
反映到用户数据上,2024 百度 Create AI 开发者大会的最新数据显示,文心一言累计用户规模已达 2 亿,日均调用量也达到了 2 亿。
增效降本的实际应用
大模型不仅掀起了一场 AI 技术变革,还在一定程度上重塑了我们的生产和生活方式,提高了生产力。
在大模型应用落地过程中,效果、效率和成本都很重要,我们需要从实际应用的场景需求出发,选择最适合的模型。从研发侧来说,需要持续不断进行高效、低成本的模型生产;在应用侧,则需要充分发挥按需调度的原则,利用任务需求的不同设计多模型的组合推理机制。
在 IDC 评测报告中,我们可以看到百度文心大模型在 toC 和 toB 应用场景中均有出色表现。这源于百度在大模型应用落地中的两个关键考量:一方面是高效低成本的模型生产;另一方面是多模型推理。
高效低成本模型生产方面,百度研制了大小模型协同的训练机制,可以有效进行知识继承,高效生产高质量小模型,也可以利用小模型实现对比增强,帮助大模型的训练。同时,建设了种子模型矩阵,数据提质与增强机制,以及从预训练、精调对齐、模型压缩到推理部署的配套工具链。高效低成本模型生产机制,助力应用速度更快、成本更低、效果更好。
多模型推理方面,百度研发了基于反馈学习的端到端多模型推理技术,构建了智能路由模型,进行端到端反馈学习,充分发挥不同模型处理不同任务的能力,达到效果、效率和成本的最佳平衡。
基于上述两方面的设计,文心大模型已经发展出基础模型应用、智能体模式应用、多模态应用等多种创新应用模式,真正地把大模型能力转化成了生产力的提升。
例如在行业落地上,百度智能云推出千帆大模型平台,以一站式企业级大模型开发及服务运行平台服务大众。2024 年 5 月底,百度宣布文心大模型的两款主力模型 ERNIE Speed、ERNIE Lite 免费。截至目前,包括国家电网、浦发银行、中国航天、吉利、长安汽车、泰康保险、TCL、上海辞书出版社、荣耀、三星、蔚来汽车、南方电网、山东港、汽车之家、毕马威等都成为百度文心大模型的用户和合作伙伴。文心大模型已经拥有中国最广泛的产业落地规模。
结语
除了 IDC 这份报告,我们也关注到文心大模型和文心一言在近期多个评测的不俗表现。
不久之前,清华的《SuperBench 大模型综合能力评测报告》共评测了 14 个海内外具有代表性的模型,结果显示文心一言 4.0 表现亮眼,作为国内头部模型,与国际一流模型水平接近。
沙利文发布的《2024 年中国大模型能力评测》报告显示百度文心一言稳居国产大模型首位,拿下了数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一。
回顾从 2012 年开始的深度学习革命,百度就一直看重 AI 技术的发展与应用。一直到这波大模型浪潮,百度率先推出国产大模型产品,并不断迭代技术、推进落地应用。而经过一年半的「百模大战」,大模型进入了拼落地应用的阶段。这个过程中,百度大模型的生成质量、生成速度与使用成本也许会成为这场战争的胜负手。
无问芯穹与清华、上交最新联合研究全面解析大模型推理优化
近年来,大语言模型(Large Language Models, LLMs)受到学术界和工业界的广泛关注,得益于其在各种语言生成任务上的出色表现,大语言模型推动了各种人工智能应用(例如ChatGPT、Copilot等)的发展。然而,大语言模型的落地应用受到其较大的推理开销的限制,对部署资源、用户体验、经济成本都带来了巨大挑战。例如,将包含700亿参数量的LLaMA-2-70B模型进行部署推理,至少需要6张RTX 3090Ti显卡或2张NVIDIA A100显卡,以部署在A100显卡上为例,该模型生成512长度的词块(token)序列需要耗时超过50秒。
许多研究工作致力于设计优化大语言模型推理开销的技术,优化模型的推理延迟、吞吐、功耗和存储等指标,成为许多研究的重要目标。为了对这些优化技术有更全面、更系统的认知,为大语言模型的部署实践和未来研究提供建议和指南,来自清华大学电子工程系、无问芯穹和上海交通大学的研究团队对大语言模型的高效推理技术进行了一次全面的调研和整理,在《A Survey on Efficient Inference for Large Language Models》(简称LLM Eff-Inference)这篇万字长文综述将领域相关工作划分归类为三个优化层次(即数据层、模型层和系统层),并逐个层次地介绍和总结相关技术工作。此外,该工作还对造成大语言模型推理不高效的根本原因进行分析,并基于对当前已有工作的综述,深入探讨高效推理领域未来应关注的场景、挑战和路线,为研究者提供可行的未来研究方向。
图注:《A Survey on Efficient Inference for Large Language Models》(LLM Eff-Inference)
一、大模型推理效率瓶颈分析
目前主流的大语言模型都是基于Transformer架构进行设计。通常来说,一个完整的模型架构由多个相同结构的Transformer块组成,每个Transformer块则包含多头自注意力(Multi-Head Self-Attention, MHSA)模块、前馈神经网络(Feed Forward Network, FFN)和层归一化(Layer Normalization,LN)操作。
大语言模型通常自回归(Auto-regressive)的方式生成输出序列,即模型逐个词块生成,且生成每个词块时需要将前序的所有词块(包括输入词块和前面已生成的词块)全部作为模型的输入。因此,随着输出序列的增长,推理过程的开销显著增大。为了解决该问题,KV缓存技术被提出,该技术通过存储和复用前序词块在计算注意力机制时产生的Key和Value向量,减少大量计算上的冗余,用一定的存储开销换取了显著的加速效果。基于KV缓存技术,通常可以将大语言模型的推理过程划分为两个阶段(分别如下图中(a)和(b)所示):
预填充(Prefilling)阶段:大语言模型计算并存储输入序列中词块的Key和Value向量,并生成第一个输出词块。
解码(Decoding)阶段:大语言模型利用KV缓存技术逐个生成输出词块,并在每步生成后存储新词块的Key和Value向量。
图注:大语言模型推理的两个阶段,即预填充阶段(a)和解码阶段(b)
大语言模型在实际部署应用中,我们通常关注其延时、吞吐、功耗和存储,而在大语言模型推理过程中,有三个重要因素会直接影响上述效率指标,分别是计算开销(Computational Cost)、访存开销(Memory Access Cost)和存储开销(Memory Cost)。进一步地,本综述深入分析探究,并总结归纳除出影响上述指标和因素三点根本因素,分别为:
模型规模:主流大语言模型庞大的模型规模会导致巨大的计算量、访存量和存储量;
注意力算子:作为大语言模型的核心算子,注意力算子具有与输入长度呈平方关系增长的计算和存储复杂度;
解码方式:主流的自回归解码方式导致极低的计算-访存比和硬件利用率,同时动态增长的KV缓存会导致碎片化的内存使用,对访存开销和存储开销带来增长。
图注:大语言模型推理效率瓶颈分析图示
二、大模型高效推理技术领域纵览
本综述将大语言模型高效推理领域的技术划分为三个层次,分别为:
数据层优化技术:指通过优化输入提示词或规划模型输出内容优化推理效率。这类优化技术通常不需要修改模型本身,因此避免了大量的模型训练或微调开销;
模型层优化技术:指通过设计高效的模型结构或模型压缩技术优化推理效率。这类技术通常需要对模型进行预训练或微调来恢复任务精度,同时通常对输出结果是有损的;
系统层优化技术:指通过优化推理引擎或服务系统优化推理效率。这类技术通常不需要额外的模型训练开销,同时可以保证对输出结果是无损的。
图注:本综述的分类体系
2.1 数据层优化技术
数据层优化技术可以划分为两大类:输入压缩(Input Compression)和输出规划(Output Organization)。
2.1.1 输入压缩技术
在实际利用大语言模型做回答时,通常会在输入提示词中加入一些辅助内容来增强模型的回答质量,例如,上下文学习技术(In-Context Learning,ICL)提出在输入中加入多个相关的问答例子来教模型如何作答。然而,这些技术不可避免地会增长输入词提示的长度,导致模型推理的开销增大。为了解决该问题,输入压缩技术通过直接减小输入的长度来优化模型的推理效率。
本综述将该类技术进一步划分为四个小类,分别为:
提示词剪枝(Prompt Pruning):通常根据设计好的重要度评估指标删除输入提示词中不重要的词块、句子或文段,对被压缩的输入提示词执行在线压缩。
提示词总结(Prompt Summary):通过对输入提示词做文本总结任务,在保证其语义信息相同地情况下缩短输入的长度。该压缩过程通常也是在线执行的。
基于软提示词的压缩(Soft Prompt-based Compression):通过微调训练的方式得到一个长度较短的软提示词,代替原先的输入提示词(在线执行)或其中固定的一部分内容(离线执行)。其中,软提示词指连续的、可学习的词块序列,可以通过训练的方式学习得到。
检索增强生成(Retrieval-Augmented Generation):通过检索和输入相关的辅助内容,并只将这些相关的内容加入到输入提示词中,来降低原本的输入长度(相比于加入所有辅助内容)。
2.1.2 输出规划技术
传统的生成解码方式是完全串行的,输出规划技术通过规划输出内容,并行生成某些部分的的输出来降低端到端的推理延时。以该领域最早的工作“思维骨架”(Skeleton-of-Thought,以下简称SoT)[45](无问芯穹于2023年7月发布的工作,并被ICLR2024录用)为例,SoT技术的核心思想是让大语言模型自行规划输出的并行结构,并基于该结构进行并行解码,提升硬件利用率,减少端到端生成延时。
具体来说,如下图所示,SoT将大语言模型的生成分为两个阶段:在提纲阶段,SoT通过设计的提示词让大语言模型输出答案的大纲;在分点扩展阶段,SoT让大语言模型基于大纲中的每一个分点并行做扩展,最后将所有分点扩展的答案合并起来。SoT技术让包含LLaMA-2、Vicuna模型在内的9种主流大语言模型的生成过程加速1.9倍以上,最高可达2.39倍。在SoT技术发布后,一些研究工作通过微调大语言模型、前后端协同优化等方式优化输出规划技术,达到了更好的加速比和回答质量之间的权衡点。
图注:输出规划技术SoT[45]示意
2.1.3 知识、建议和未来方向
随着大语言模型需要处理的输入提示词和模型的输出结果越来越长,数据层的优化技术越来越重要。在这类技术中,输入压缩技术主要优化预填充阶段中注意力算子带来的平方量级的计算和存储开销,而输出规划技术则主要通过降低解码阶段中大量的访存开销,此外,一些研究尝试利用大语言模型本身做输出规划,并取得了不错的效果。
最近,各种各样新的提示词流程(Prompting Pipelines)和大语言模型智能体(LLM Agents)出现,这些新的框架在增强大语言模型能力的同时,也引入了更长的输入提示。利用输入压缩技术可以有效优化此类问题,同时,这些流程和智能体框架在输出内容中引入了更多可并行性,因此输出规划技术可能会在优化这类框架的效率上起到关键作用。除此之外,还有一些新工作关注如何直接设计更高效的智能体框架。
2.2 模型层优化技术
模型层优化技术可以划分为两大类:高效结构设计(Efficient Structure Design)和模型压缩(Model Compression)。前者通常需要将新设计的模型从头进行预训练,而后者通常只需要微调恢复精度即可。
2.2.1 高效结构设计
目前主流的大语言模型大多采用Transformer架构,从结构上看,参数量占比最多的前馈神经网络(以下简称FFN)和平方复杂度的注意力算子是导致模型推理效率低下的主要原因。基于此,本文将高效结构设计领域的技术进一步划分为三类:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。