赞
踩
点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
近日,来自新加坡国立大学等机构的研究者探索了直接偏好优化在推荐大模型场景下的应用,并提出Softmax-DPO (S-DPO),对Softmax采样策略与DPO的结合进行了深入探究。
代码:https://github.com/chenyuxin1999/S-DPO
论文地址:https://arxiv.org/abs/2406.09215
AITIME
01
研究背景
现阶段,推荐大模型进行微调往往沿用语言模型的目标函数,也即下一分词预测任务。然而,推荐的本质并不是语言建模(language modeling),而更多是根据用户偏好数据,进行用户行为模拟(user behavior modeling),也即用户偏好排序任务。故而,探索真正适合推荐大模型的优化目标,成为了突破现阶段推荐性能的核心。
研究者认为,当前训练大模型推荐系统的目标函数遵从传统语言模型的训练范式,没有直接针对用户偏好排序进行优化,忽视了负样本在推荐中的作用,从而使大模型推荐系统的性能受限。
受到使用标注偏好数据对齐人类偏好,以及直接偏好优化(DPO)的启发,研究者在监督微调阶段之后加入了偏好对齐阶段,旨在将用户对于物品偏好程度的偏序关系注入大模型。参照softmax 采样策略在推荐任务中的成功,在偏好对齐阶段中,作者针对多负例的用户偏好数据,将DPO拓展到多负例的场景,提出Softmax-DPO,简称 S-DPO。
AITIME
02
背景知识
AITIME
03
S-DPO技术路线
AITIME
04
试验评估
为了验证 S-DPO 在序列推荐任务上的有效性,研究者在三个推荐数据集上开展实验,数据集的统计数据如下:
序列推荐性能
研究者让大模型根据交互序列,从候选物品集中选择推荐物品,并统计大模型选中偏好物品的比例(HR@1)。实验结果显示,S-DPO在序列推荐任务上,相较于传统推荐模型和已有的大模型推荐系统,都有着更好的表现。
探索多负例的作用
为了探索 S-DPO 中引入多负例进行偏好学习的作用,研究者做了进一步的实验分析。
1)实验表明,S-DPO相比于DPO能让大模型推荐系统取得更好的推荐性能(见图 2a)。同时得益于更强的负样本挖掘的能力,多负例的损失函数S-DPO相比于DPO带来更大,更有效的梯度。
2)许多工作表明DPO有偏好数据似然值下降的问题,通过引入多负例,S-DPO可以有效缓解偏好数据似然值的下降(见图 2c)。
3)随着负例个数的增加,大模型推荐系统的性能也进一步提升(见图3a),这个结果说明了softmax负采样对于推荐任务的重要性。
AITIME
05
展望
S-DPO 作为 DPO 的一种推广,为未来的大模型推荐系统提供了启发,并有惠及推荐系统以外领域的潜力。未来,我们将继续探索 S-DPO 在其他场景下的应用,并进一步探索 softmax 采样策略在大模型推荐系统中的应用。
往期精彩文章推荐
论文解读 | ICML2024:大型语言模型知识编辑中的邻近扰动与APP缓解方法
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击 阅读原文 查看更多!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。