赞
踩
学习这个RRTF之前,可以先学习一下RLHF。
顺带一提:eosphoros-ai组织「DB-GPT开发者」最新有个新项目Awesome-Text2SQL:GitHub - eosphoros-ai/Awesome-Text2SQL: Curated tutorials and resources for Large Language Models, Text2SQL, and more.,收集了Text2SQL+LLM领域的相关简介、综述、经典Text2SQL方法、基础大模型、微调方法、数据集、实践项目等等,欢迎围观尝试。
补充:GPT-4是67%, Code Llama也是62.2%, GPT3.5是 48.1%。详情可以参考Code Llama论文学习
和原模型论文的prompt一致
题外话:2023年8月29日,WizardCoder 34B已经超过GPT-4了,73.2%无敌!
论文中说的是simple but powerful framework RRTF,确实看起来简单明了,效果显著可惜没有代码。
框架主要分成3个部分:
核心思想:利用了单元测试+人类偏好联合作为反馈(test signals and human preferences jointly as feedback)(RLHF只是利用人类偏好)
如果教师模型和学生模型都处于同一个情况,比如都是编译错误,那么也会让教师模型的排名比学生模型高
如果教师模型分数比学生模型分数低,那么就过滤掉这个数据
RLHF中是使用二元组「pormpt,chosen/rejected」训练,分数是通过奖励模型RM给出。
teacher 模型是什么?student 模型是什么?(有点类似蒸馏学习中的教师-学生模型,让学生模型不断向教师模型靠近)
teacher模型论文没说是啥?估计是GPT-4。student 模型就是基础StarCoder 15B
1.huggingface博客讲解RLHF: Illustrating Reinforcement Learning from Human Feedback (RLHF)
2.RRHF代码实现:RRHF: Rank Responses to Align Language Models with Human Feedback without tears
3.RLTF代码实现:RLTF: Reinforcement learning from unit test feedback
4.RAFT代码实现:RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment
5.Text2SQL+LLM教程汇总项目:https://github.com/eosphoros-ai/Awesome-Text2SQL
6.Text2SQL+LLM模型微调实践项目:GitHub - eosphoros-ai/DB-GPT-Hub: A repository that contains models, datasets, and fine-tuning techniques for DB-GPT, with the purpose of enhancing model performance, especially in Text-to-SQL.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。