赞
踩
【LLM】从零开始训练大模型 - 知乎
包括模型预训练(Pretrain)、Tokenizer 训练、指令微调(Instruction Tuning)、奖励模型(Reward Model)和强化学习(RLHF)等
Pretraining 的思路很简单,就是输入一堆文本,让模型做 Next Token Prediction 的任务