赞
踩
在看了李宏毅老师对于GPT社会化的过程讲解视频后做出来的笔记,
李宏毅老师的视频:https://www.youtube.com/watch?v=e0aKI2GGZNg
Chat GPT 官方 Blog:https://openai.com/blog/chatgpt
从网络上大量学习语料,作为文字输出的素材库。文字接龙的输出结果是有几率分布的,从几率分布中随机抽取出一个字。(所以GPT输出结果时是一个字一个字蹦出来的)
直接随机输出结果具有不确定性,通过人工对一些问题的回答进行正确回答,把这种有益的回答给GPT看,告诉它人类对问题答案的偏好(更喜欢被回答的是什么形式),文字接龙的时候就有更明显的输出倾向。
同一个问题会产生不同的答案,于是GPT雇佣人工,告诉机器哪一个答案好,哪一个答案差,并不是告诉机器答案的正确与否,而是给它输出的答案打分数。
根据这些人类老师打分的例子,去训练一个模仿老师的模型(Teacher Model),去模仿人类老师打分的标准,从而对自己的输出结果打分。
问题通过GPT得到答案后,先把答案丢给刚刚训练好的Teacher Model得到评分,此时使用增强式学习,不断调整参数,去迭代出评分最高的答案,最后输出评分最高的答案,也就是人类最满意的答案。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。