当前位置:   article > 正文

使用LoRA对大语言模型LLaMA做Fine-tune_lora finetune

lora finetune

前言

  • 目前有大量对LLM(大语言模型)做Fine-tune的方式,不过需要消耗的资源非常高,例如

    • Stanford Alpaca: 对LLaMA-7B做Fine-tune,需要4颗A100 (80GB) GPU
    • FastChat/Vicuna: 对LLaMA-7B做Fine-tune,需要4颗A100 (40GB) GPU
  • 这种资源需求令普通的学习者望而却步,使用LoRA则可以较好的解决这个问题

  • LoRA全称为Low-Rank Adaptation of Large Language Models,是一种模拟Full Fine-tune的特殊方法:不改变原模型的情况下,在旁边增加一个降维和升维操作来模拟 intrinsic rank(模拟训练真正能影响模型效果的那些参数),从而达到和Full Fine-tune几乎一样的效果。(具体原理请自行查找。另外提一下:LoRA原本是用于LLM的,不过目前在StableDiffusion上也得到了非常好的应用。)
    LoRA

  • LoRA 的最大优势是训练参数少、速度快、内存消耗少。例如Alpaca-LoRA使用一颗RTX 4090即可实现对LLaMA-7B的Fine-tune,目前也有很多网友使用单颗RTX 4070 Ti、RTX 4080完成过训练。

  • 下面就来说说整个训练过程。

  • 我使用的设备是3颗老旧的Tesla T4(不要问我为什么用推理专用GPU做训练),信息如下

    (base) [root@xxx-yyy-gpu ~]# nvidia-smi 
    Mon May 29 16:29:50 2023       
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 460.91.03    Driver Version: 460.91.03    CUDA Version: 11.2     |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |                               |                      |               MIG M. |
    |===============================+======================+======================|
    |   0  Tesla T4            Off  | 00000000:3B:00.0 Off |                    0 |
    | N/A   31C    P8     8W /  70W |      0MiB / 15109MiB |      0%      Default |
    |                               |                      |                  N/A |
    +-------------------------------+----------------------+----------------------+
    |   1  Tesla T4            Off  | 00000000:AF:00.0 Off |                    0 |
    | N/A   32C    P8     9W /  70W |      0MiB / 15109MiB |      0%      Default |
    |                               |                      |                  N/A |
    +-------------------------------+----------------------+----------------------+
    |   2  Tesla T4            Off  | 00000000:D8:00.0 Off |                    0 |
    | N/A   31C    P8     9W /  70W |      0MiB / 15109MiB |      0%      Default |
    |                               |                      |                  N/A |
    +-------------------------------+----------------------+----------------------+
                                                                                   
    +-----------------------------------------------------------------------------+
    | Processes:                                                                  |
    |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
    |        ID   ID                                                   Usage      |
    |=============================================================================|
    |  No running processes found                                                 |
    +-----------------------------------------------------------------------------+
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
  • 理论上2颗Tesla T4也行 本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/719952

推荐阅读
相关标签