当前位置:   article > 正文

论文浅尝 | PanGu-Coder2: 利用排序反馈增强代码的大型语言模型

pangu-coder

9388d31dd4fb7fc740d3304969749258.png

笔记整理:李晓彤,浙江大学硕士,研究方向为蛋白质与大模型

链接:https://arxiv.org/pdf/2307.14936.pdf

1. 动机

作为大语言模型最有前途的应用之一,代码大语言模型(Code LLM)因其在代码相关任务中的卓越能力而引起了学术界和工业界的极大关注。在诸多提升Code LLM性能的工作中,强化学习(RL)似乎是一个有前途的方向。然而,现有的基于RL的方法,往往根据来自代码处理器的反馈信号来设计价值/奖励函数,这导致了三个限制:首先,将测试结果直接视为奖励,对基础模型的改进有限;其次,采用的强化学习算法(如PPO)在大型语言模型上实现起来很复杂,并且难以训练;此外,在训练模型时运行测试会耗费大量时间,因而之前的研究只在中等大小的模型上进行实验,且改进幅度相当有限

为了解决现有基于RL方法的问题,并进一步开发Code LLM的潜力,本文提出了RRTF这一新框架,该方法遵循RLHF的想法,但使用排序损失作为反馈,实现了一种更简单、更有效的训练方法。

2. 贡献

本文的主要贡献有:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/739586
推荐阅读
相关标签
  

闽ICP备14008679号