赞
踩
LLMs之Efficient-LLMs-Survey:Efficient-LLMs-Survey(高效大型语言模型综述)的简介、代表性算法论文及其代码之详细攻略
目录
LLMs:《Efficient Large Language Models: A Survey》翻译与解读
LLMs之Efficient-LLMs-Survey:Efficient-LLMs-Survey(高效大型语言模型综述)的简介、代表性算法论文及其代码之详细攻略
Efficient-LLMs-Survey(高效大型语言模型综述)的简介
Weight-Activation Co-Quantization
1.2.1、Mixed Precision Acceleration
1.2.3、Initialization Techniques
1.3.1、Parameter Efficient Fine-Tuning
1.3.2、Memory Efficient Fine-Tuning
1.5.4、Transformer Alternative Architecture
三、System-Level Efficiency Optimization and LLM Frameworks
3.1、System-Level Efficiency Optimization
3.1.1、System-Level Pre-Training Efficiency Optimization
3.1.2、System-Level Inference Efficiency Optimization
3.1.3、System-Level Serving Efficiency Optimization
3.1.4、System-Level Efficient Architecture Optimization
https://yunyaniu.blog.csdn.net/article/details/135375631
https://yunyaniu.blog.csdn.net/article/details/135375804
大语言模型(LLMs)在许多重要任务中展示了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这种能力伴随着相当大的资源需求,突显了对开发有效技术来解决LLMs引发的效率挑战的强烈需求。在这份综述中,我们对高效LLMs研究进行了系统而全面的回顾。我们将文献分为三个主要类别,分别从模型中心、数据中心和框架中心的角度涵盖了不同但相互关联的高效LLMs主题。我们希望我们的综述和这个GitHub存储库能够作为有价值的资源,帮助研究人员和实践者系统地了解高效LLMs研究的发展,并激发他们为这一重要且令人兴奋的领域做出贡献。
我们将积极维护这个存储库,并通过引入新的研究来更新这份综述。
GitHub地址:GitHub - AIoT-MLSys-Lab/Efficient-LLMs-Survey: Efficient Large Language Models: A Survey
尽管LLMs引领着下一波人工智能革命,但LLMs卓越的能力是以巨大的资源需求为代价的。图1(左)以LLaMA系列为例,展示了模型性能与模型训练时间之间的关系,以GPU小时为单位,其中每个圆圈的大小与模型参数的数量成比例。如图所示,尽管较大的模型能够取得更好的性能,但用于训练它们的GPU小时随着模型规模的增加呈指数增长。除了训练之外,推断也对LLMs的操作成本产生了相当大的影响。图2(右)描述了模型性能与推断吞吐量之间的关系。类似地,增加模型大小可以实现更好的性能,但以降低推断吞吐量(更高的推断延迟)为代价,这对这些模型在以经济有效的方式扩展其覆盖范围到更广泛的客户群和各种应用中提出了挑战。LLMs的高资源需求强调了开发技术以提高LLMs效率的强烈需求。如图2所示,与LLaMA-1-33B相比,使用分组查询注意力和滑动窗口注意力来加速推断的Mistral-7B在性能上达到了可比较的水平,并且具有更高的吞吐量。这种优越性突显了为LLMs设计效率技术的可行性和重要性。
未完待续,更新中……
Adapter-based Tuning
Low-Rank Adaptation
Prefix Tuning
Prompt Tuning
Sharing-based Attention
Feature Information Reduction
Kernelization or Low-Rank
Fixed Pattern Strategies
Learnable Pattern Strategies
MoE-based LLMs
Algorithm-Level MoE Optimization
Extrapolation and Interpolation
Recurrent Structure
Segmentation and Sliding Window
Memory-Retrieval Augmentation
State Space Models
Other Sequential Models
Data Selection for Efficient Pre-Training
Data Selection for Efficient Fine-Tuning
Demonstration Organization
Demonstration Selection
Demonstration Ordering
Template Formatting
Instruction Generation
Multi-Step Reasoning
Parallel Generation
System-Level Attention Optimization
System-Level MoE Optimization
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。