【论文笔记】LoRA LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

作者：我家自动化 | 2024-06-24 22:21:45

踩

题目：LoRA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
来源: ICLR 2022
模型名称: LoRA
论文链接: https://arxiv.org/abs/2106.09685
项目链接: https://github.com/microsoft/LoRA

文章目录

摘要
引言
问题定义
现有方法的问题
方法
- 将 LORA 应用于 Transformer
实验
思考
结论
future work

摘要

随着模型越来越大，全量微调变得越来越不可行。作者提出了低秩适配器（LoRA），它冻结了预训练的模型权重，并将可训练的秩分解矩阵注入到 Transformer 架构的每一层中，大大减少了下游任务的可训练参数的数量。在GPT-3 175B使用Adam上，与全量微调相比，LoRA减少了10，000倍参数量，减少了3倍GPU内存消耗。

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】