当前位置:   article > 正文

S-DPO: 基于直接偏好优化(DPO)进行推荐大模型微调的探索

推荐 大模型微调 加入用户行为

点击蓝字

230e0ab667f3cdfaac12c0b943dab5dc.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近日,来自新加坡国立大学等机构的研究者探索了直接偏好优化在推荐大模型场景下的应用,并提出Softmax-DPO (S-DPO),对Softmax采样策略与DPO的结合进行了深入探究。

273f68837613ef837b83bd0451308976.png

dfc3c50c7ed5d446d93e0bd28f4d001f.png

代码:https://github.com/chenyuxin1999/S-DPO

论文地址:https://arxiv.org/abs/2406.09215

AITIME

01

研究背景

现阶段,推荐大模型进行微调往往沿用语言模型的目标函数,也即下一分词预测任务。然而,推荐的本质并不是语言建模(language modeling),而更多是根据用户偏好数据,进行用户行为模拟(user behavior modeling),也即用户偏好排序任务。故而,探索真正适合推荐大模型的优化目标,成为了突破现阶段推荐性能的核心。

f8b9c5a36962281f8e59960fe614e62f.png

研究者认为,当前训练大模型推荐系统的目标函数遵从传统语言模型的训练范式,没有直接针对用户偏好排序进行优化,忽视了负样本在推荐中的作用,从而使大模型推荐系统的性能受限。

受到使用标注偏好数据对齐人类偏好,以及直接偏好优化(DPO)的启发,研究者在监督微调阶段之后加入了偏好对齐阶段,旨在将用户对于物品偏好程度的偏序关系注入大模型。参照softmax 采样策略在推荐任务中的成功,在偏好对齐阶段中,作者针对多负例的用户偏好数据,将DPO拓展到多负例的场景,提出Softmax-DPO,简称 S-DPO。

AITIME

02

背景知识

755e1b688b045c0de746817a57835bd2.png

d9701151cbbec1c53be5f2b1ea7b1546.png


AITIME

03

S-DPO技术路线

6eec742f1e135ad3090f82e08b82d848.png

4fc9026e7f0fbe6a8fc87875579c6c3e.png

cbd33236770fc4ce0c03827db01c2c26.png

AITIME

04

试验评估

为了验证 S-DPO 在序列推荐任务上的有效性,研究者在三个推荐数据集上开展实验,数据集的统计数据如下:

7174e61ccc251f7d3f8f5720b9a7c871.png

序列推荐性能

研究者让大模型根据交互序列,从候选物品集中选择推荐物品,并统计大模型选中偏好物品的比例(HR@1)。实验结果显示,S-DPO在序列推荐任务上,相较于传统推荐模型和已有的大模型推荐系统,都有着更好的表现。

06d858e22b1a3345948179ea6b56be28.png

探索多负例的作用

为了探索 S-DPO 中引入多负例进行偏好学习的作用,研究者做了进一步的实验分析。

1)实验表明,S-DPO相比于DPO能让大模型推荐系统取得更好的推荐性能(见图 2a)。同时得益于更强的负样本挖掘的能力,多负例的损失函数S-DPO相比于DPO带来更大,更有效的梯度。

3aa0a76fd82ef58d885fda69109f99be.png

2)许多工作表明DPO有偏好数据似然值下降的问题,通过引入多负例,S-DPO可以有效缓解偏好数据似然值的下降(见图 2c)。

2e626bbcf2da65a40def4925ca1dfe67.png

3)随着负例个数的增加,大模型推荐系统的性能也进一步提升(见图3a),这个结果说明了softmax负采样对于推荐任务的重要性。

AITIME

05

展望

S-DPO 作为 DPO 的一种推广,为未来的大模型推荐系统提供了启发,并有惠及推荐系统以外领域的潜力。未来,我们将继续探索 S-DPO 在其他场景下的应用,并进一步探索 softmax 采样策略在大模型推荐系统中的应用。

往期精彩文章推荐

95c518e69d7a41b117d55a2f7dcf4224.jpeg

论文解读 | ICML2024:大型语言模型知识编辑中的邻近扰动与APP缓解方法

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

a8eb52792c461e80ae61039cd0bc4ece.png

我知道你

在看

提出观点,表达想法,欢迎

留言

a62bdc471030e61fae49765fd957987b.gif

点击 阅读原文 查看更多!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/809317
推荐阅读
相关标签
  

闽ICP备14008679号