OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGE MODELS WITH MIXED-QUALITY DATA

作者：笔触狂放9 | 2024-08-03 08:05:59

踩

openchat: advancing open-source language models with mixed-quality data

本文是LLM系列文章，针对《OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGE MODELS WITH MIXED-QUALITY DATA》的翻译。

OPENCHAT：利用混合质量数据推进开源语言模型

摘要
1 引言
2 前言
3 OpenChat
4 实验
5 分析
6 相关工作
7 结论与未来工作

摘要

如今，像LLaMA这样的开源大型语言模型已经出现。最近的发展结合了监督微调（SFT）和强化学习微调（RLFT），以使这些模型与人类目标保持一致。然而，SFT方法平等地对待具有混合质量的所有训练数据，而RLFT方法需要高质量的成对或基于排名的偏好数据。在这项研究中，我们提出了一个新的框架，名为OpenChat，用于推进具有混合质量数据的开源语言模型。具体来说，我们考虑一般的SFT训练数据，由少量专家数据和大量次优数据组成，没有任何偏好标签。我们提出了C（条件）-RLFT，它将不同的数据源视为粗粒度的奖励标签，并学习类条件策略来利用互补的数据质量信息。有趣的是，C-RLFT中的最优策略可以通过单阶段、无RL的监督学习轻松求解，这是轻量级的，避免了昂贵的人类偏好标记。通过在三个标准基准上进行广泛的实验，我们使用C-RLFT微调的openchat-13b在所有13b开源语言模型中实现了最高的平均性能。此外，我们使用AGIEval来验证模型的泛化性能，其中只有openchat-13b超过了基本模型。最后，我们进行了一系列分析，以阐明OpenChat的有效性和稳健性。我们的代码、数据和模型在https://github.com/imoneoi/openchat上可用.

1 引言

2 前言

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/922147