赞
踩
人工智能技术正在飞速发展,尤其是大语言模型在自然语言处理领域取得了令人瞩目的成就。但同时,我们也面临着如何让语言模型更符合人类意图、减少有害内容生成的挑战。
针对大模型对齐方向的挑战,本文提出了一种新颖的方法来解决这一难题。其核心思想是:将自回归语言模型看作一个离散时间随机动力系统,通过在其表征空间中引入控制信号,动态调整模型在生成过程中的行为,使之更加符合特定的对齐目标。与需要微调模型参数的方法不同,该方法只需训练一个简单的价值网络,并在测试时优化表征空间即可实现对齐,因而速度更快、资源占用更少。
实验表明,这一方法在保持生成质量的同时,显著提升了语言模型对无害性、有帮助性等人类偏好的契合度,并展现出了强大的泛化能力。
论文标题:
Aligning Large Language Models with Representation Editing: A Control Perspective
论文链接:
https://arxiv.org/pdf/2406.05954.pdf
随着自然语言处理技术的飞速发展,预训练语言模型的规模不断增大,在各类任务上取得了令人惊艳的效果。然而由于训练数据的复杂性和多样性,这些模型可能会生成有害、无关或不符合人类意图的内容。如何让语言模型更好地与人类偏好保持一致,成为了一个亟待解决的问题。
目前主要有两类方法来实现语言模型对齐:微调和测试时对齐。微调方法如RLHF(Reinforcement Learning from Human Feedback)通过人类反馈数据训练一个奖励模型,再用强化学习技术去优化语言模型的策略。然而,这类方法存在训练不稳定且需要大量算力的问题。此外,每当面临新的数据或需求时,都需要重新微调模型,难以快速适应不断变化的应用环境。近年来也有研究提出了一些简化RLHF的方法如DPO,但仍难以避免大量计算资源的消耗。
测试时对齐方法如提示工程(prompt engineering)和受控解码(guided decoding),无需改动模型参数,通过设计巧妙的提示或解码策略来引导模型生成更安全、更符合人类意图的内容。但由于这类方法并未改变语言模型本身,其对齐能力有限,效果很依赖原模型的性能。
此外,还有一类通过表征工程(representation engineering)实现模型对齐的方法。这类方法通过向语言模型的表征空间中添加扰动,在不改变模型参数的情况下调整其生成行为。已有工作证实,表征编辑在提高语言模型真实性、减少幻觉等方面有不错的效果。但已有方法大多采用添加固定扰动的方式,且未考虑语言模型生成过程的自回归特性。
如何在不牺牲效果的前提下,以更轻量化、更灵活的方式实现语言模型对齐,充分发挥大模型的生成能力,成为一个亟待探索的研究方向。
针对上述问题,本文提出了一种全新的解决方案。该方法巧妙地利用了自回归语言模型与离散时间随机动力系统之间的联系,通过在语言模型的表征空间中引入外部控制信号,在测试时动态调整模型行为,使之更加符合特定的对齐目标。
具体来说,研究者将预训练的自回归语言模型看作一个离散时间随机动力系统,其行为由状态转移函数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。