赞
踩
大模型首先在大量的无标签数据上进行训练,预训练的最终目的是让模型学习到语言的统计规律和一般知识。在这个过程中模型能够学习到词语的语义、句子的语法结构、以及文本的一般知识和上下文信息。需要注意的是,预训练本质上是一个无监督学习过程;得到预训练模型(Pretrained Model), 也被称为基座模型(Base Model),模型具备通用的预测能力。如GLM-130B模 型、OpenAI的A、B、C、D四大模型,都是基座模型;
预训练好的模型然后在特定任务的数据上进行进一步的训练。这个过程通常涉及对模型的权重进行微小的调整,以使其更好地适应特定的任务;得到最终能力各异的模型,例如 gpt code系列、gpt text系列、 ChatGLM-6B等模型;
感性理解:大模型微调指的是“喂”给模型更多信息,对模型的特定功能进行 “调教”,即通过输入特定领域的数据集,让其学习这个领域的知识,从而让 大模型能够更好的完成特定领域的NLP任务,例如情感分析、命名实体识别、文本分类、对话聊天等;
核心原因还是在于需要“赋予”大模型更加定制化的功能,例如结合本地知识库进行检索、围 绕特定领域问题进行问答等; 例如,VisualGLM是通用多模态大模型,但应用于医学影像判别领域,则需要代入医学影像 领域的数据集来进行大模型微调,从而使得模型能够更好的围绕医学影像图片进行识别; 就像机器学习模型的超参数优化,只有调整了超参数,才能让模型更佳适用于当前的数据 集; 同时,大模型是可以多次进行微调,每次微调都是一次能力的调整,即我们可以在现有的、 已经具备某些特定能力的大模型基础上进一步进行微调;
OpenAI系列模型微调关系
官网说明地址: https://platform.openai.com/docs/ model-index-for-researchers
OpenAI大模型微调API API地址
https://platform.openai.com/docs/guides/fine-tuning
OpenAI提供的了“傻瓜式”微调流程,用户只需要:
RLHF方法 论文地址:https://arxiv.org/abs/2203.02155九天Hector
项目地址: https://github.com/microsoft/ DeepSpeed/
步骤1:监督微调(SFT) —— 使用精选的人类回答来微调预训练的语言模型以应对各种查询;
步骤2:奖励模型微调 —— 使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独 立的(通常比 SFT 小的)奖励模型(RW);
步骤3:RLHF 训练 —— 利用 Proximal Policy Optimization(PPO)算法,根据 RW 模型的奖励 反馈进一步微调 SFT 模型。
RLHF是实现难度最大的微调方法,不太支持windows系统,最好使用linux系统。
Github地址: https://github.com/microsoft/LoRA
论文地址: https://arxiv.org/abs/2106.09685
LoRA:LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS(2021) 基于低阶自适应的大语言模型微调方法
论文地址: https://aclanthology.org/2021.acl-long.353/
Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021) 基于提示词前缀优化的微调方法
论文地址: https://arxiv.org/abs/2104.08691
The Power of Scale for Parameter-Efficient Prompt Tuning (2021)
GitHub地址:https://github.com/THUDM/P-tuning-v2 论文地址: https://aclanthology.org/2021.acl-long.353/
ChatGLM-6B+P-Tuning微调项目地址: https://github.com/ THUDM/ChatGLM-6B/blob/main/ptuning/README.md
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks(2022)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。