ICLR 2024 | 持续近端策略优化算法：人类反馈的持续强化学习

作者：笔触狂放9 | 2024-05-31 03:36:12

踩

2023-2024强化学习算法

©PaperWeekly 原创 · 作者 | 张晗

单位 | 哈尔滨工业大学（深圳），鹏城实验室

研究方向 | 大模型人类价值观对齐，持续学习

简介

人类反馈强化学习（RLHF）作为提升大语言模型（LLM）与人类偏好对齐的重要手段。现有 RLHF 方法在处理不断变化的人类偏好时，往往需要对 LLM 进行全参数重新训练，这在实际应用中面临着时间、计算成本及数据隐私等方面的巨大挑战。

依托哈尔滨工业大学（深圳）和鹏城实验室共同开展的研究，本论文提出一种持续近端策略优化（CPPO）算法，旨在解决这一难题，实现语言模型对动态人类偏好的持续对齐。

1.1 背景与挑战

研究表明，利用人类反馈对语言模型进行 RLHF 微调 [1]，能够显著提升模型在诸如文本摘要 [2]、翻译、对话生成等任务上的表现，使其生成结果更符合人类偏好。然而，现有方法在处理跨领域或主题变化导致的人类偏好差异时，要求对整个模型进行重新训练 [3]，这在现实场景中存在巨大挑战。

1.2 创新亮点

动态权重策略：作者提出的 CPPO 算法独创性地引入了自适应权重策略，根据样本特性自动区分用于增强策略学习与巩固过往经验的训练数据。这种策略旨在平衡策略学习与知识保留，确保模型在不断适应新偏好时，旧知识得以有效维护。

超越基准性能：实验结果显示，CPPO 在持续对齐人类偏好的任务上，明显优于传统的持续学习（CL）基线方法。此外，与经典近端策略优化 [4]（PPO）相比，CPPO 在非持续学习场景中展现出更高的效率与稳定性。

论文题目：

CPPO: Continual Learning for Reinforcement Learning With Human Feedback

论文地址：

https://openreview.net/pdf?id&#

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/650155