赞
踩
笔记整理:李晓彤,浙江大学硕士,研究方向为蛋白质与大模型
链接:https://arxiv.org/pdf/2307.14936.pdf
1. 动机
作为大语言模型最有前途的应用之一,代码大语言模型(Code LLM)因其在代码相关任务中的卓越能力而引起了学术界和工业界的极大关注。在诸多提升Code LLM性能的工作中,强化学习(RL)似乎是一个有前途的方向。然而,现有的基于RL的方法,往往根据来自代码处理器的反馈信号来设计价值/奖励函数,这导致了三个限制:首先,将测试结果直接视为奖励,对基础模型的改进有限;其次,采用的强化学习算法(如PPO)在大型语言模型上实现起来很复杂,并且难以训练;此外,在训练模型时运行测试会耗费大量时间,因而之前的研究只在中等大小的模型上进行实验,且改进幅度相当有限
为了解决现有基于RL方法的问题,并进一步开发Code LLM的潜力,本文提出了RRTF这一新框架,该方法遵循RLHF的想法,但使用排序损失作为反馈,实现了一种更简单、更有效的训练方法。
2. 贡献
本文的主要贡献有:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。