赞
踩
LLMs:ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集)、RLHF算法实现的三个阶段(监督指令微调→训练奖励模型→RLHF训练模型→推理量化和服务)
目录
ColossalChat的使用方法
1、ColossalChat相关的开源训练数据集
(1)、SFT指令微调数据集