赞
踩
GPT家族
GPT-3.5微调
对齐微调——RLHF算法:
标准:有用性,一定是在帮用户解决问题;诚实性,知道自己的能力边界、不撒谎;无害性,不应该攻击或歧视、应该拒绝违法或犯罪请求;
三要素:
需要对齐的预训练模型;
基于人类反馈学习的奖励模型;
模型输出一个反应人类偏好的数值;
奖励模型一般是LM的较小版本,如6B的GPT3;
一个强化学习算法;(PPO)