赞
踩
通过掩码语言建模和下一句预测任务,对 Transformer 模型的参数进行预训练。
reddit(美国的新闻聚合网页),选取有三条评论以上的网页;数据集中有类似prompt提示的组合(并非严格的格式一致)。
结果:和其他zero-shot的base相比,会好一些;但是和sota的任务对比,只有在生成摘要的任务上达到相近的效果,其他的都还有差距。(但是能看到,随着模型参数的增加,效果是一直在变好的)
问题和答案进行拼接,一起送给模型,自回归的方式预测下一个词,之后的词被mask。
把SFT模型最后的unembedding层去掉,即最后一层不用softmax,改成一个线性层,这样RM模型就可以做到输入问题+答案,输出一个标量的分数。
RM模型使用6B,而不是175B的原因:
强化学习,模型处于当前状态—做出行动action—模型到达一个新的状态。
损失函数分成三部分:
1、SFT数据集:13000条数据。标注人员直接根据刚才的问题集里面的问题写答案。
2、RM数据集:33000条数据。标注人员对答案进行排序。
3、RF数据集:31000条数据。只需要prompt集里面的问题就行,不需要标注。因为这一步的标注是RM模型来打分标注的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。