赞
踩
2020 IEEE Transactions on Knowledge and Data Engineering(TKDE)
pdf下载
该文对在推荐系统中引入知识图作为辅助信息的相关工作做出了总结,并将其分为三类,即embedding-based方法、connection-based方法和propagation-based方法。同时,根据这些方法的特点,对每一类进行了细分。此外,该文还通过研究如何利用知识图谱进行准确和可解释的推荐,对所提出的算法进行了研究。最后,总结了一些相关数据集并提出了该领域的几个潜在研究方向。
该部分主要介绍了基于KG的推荐系统的基本知识以及相关工作,涉及相关知识及概念请读者自行了解。
后续相关符号及其描述见下图。
下图为一些相关论文利用KG进行推荐的方法。
缩写 | 含义 | 缩写 | 含义 |
---|---|---|---|
Emb. | embedding-based 方法 | RU. | user的细化 |
Conn. | connection-based 方法 | RI. | item的细化 |
Prop. | propagation-based 方法 | RUI. | user和item的细化 |
TSL. | two-stage learning 方法 | * | 推荐模型是可解释的 |
JL. | joint learning 方法 | KG Embed. | KGE方法 |
MTL. | multi-task learning 方法 | IKG | item KG |
MSB. | 基于 meta-structure的方法 | UIKG | user-item KG |
PEB. | 基于path-embedding的方法 | — | 该模型没有采用KGE方法,或者该模型没有解决此类问题 |
此类研究包含两个基本模块,一个是graph embedding 模块,用于学习KG中实体和关系的表示;另一个是recommendation 模块,用于估计user
u
i
u_{i}
ui 对具有学习特征的item
v
j
v_{j}
vj 的偏好。
Two-stage learning 训练步骤:
相关方法介绍:
Two-stage learning 优缺点:
以端到端的训练方式联合学习图embedding模块和推荐模块,推荐模块可以引导图embedding模块中的特征学习过程。
相关方法介绍:
Joint Learning 优缺点:
Joint Learning方法可以使用KG结构来规范推荐过程。但是,需要微调不同目标函数的组合。
因为user-item二分图中的item及其再KG中的关联实体可能共享相似的结构,所以,items和实体之间的low-level feature转移有助于促进推荐系统的效果提升。
相关方法介绍:
Multi-task Learning 优缺点:
有助于防止推荐系统过度拟合,提高模型的泛化能力。但是,它也需要将不同的任务集成在一个框架下。
利用user-item KG挖掘图中的实体之间的关系
面临挑战:
基于元路径具有高度相似性的实体在隐空间应该很接近,所以利用不同meta-path路径中实体的连接相似性来图正则化约束user和item的表示。
三种实体相似性:
User-User相似性
Item-Item相似性
User-Item相似性
相关方法介绍:
基于Meta-structure方法的优缺点:
这种方法的推荐结果是可解释的;但是,选择meta-path或meta-graph需要一定的领域知识,meta-structures可能因不同数据集而存在差异。
通过学习连接user-item KG中的user-item pairs或item-item KG种的item pairs的路径的显式embedding,来直接对user-item或item-item关系建模。
相关方法介绍:
基于Path-embedding的方法的优缺点:
大多数模型可以自动挖掘连接模式,无需预先定义meta-structures。但是如果路径数过大会影响模型的性能。
通过聚集KG中multi-hop邻居的embedding来细化实体表示,利用user和潜在item丰富表示来预测user偏好。
面临挑战:
基于user的交互历史来改进user表示,在item KG中逐层向外传播user的偏好,即沿着KG种的路径来传播用户历史兴趣偏好。学习user表示的过程为:
相关方法介绍:
user表示的细化的优缺点:
KG中边的权重是明确的,可以选择连接候选item和交互item的显著路径,并作为推荐结果的解释。但只细化了user的表示
通过item KG中item的multi-hop邻居来学习候选item的高阶表示,在内向传播过程中,采用了图注意力机制,不同邻居的权重是用户特定和关系特定的。传播过程为:
相关方法介绍:
user表示的细化的优缺点:
只细化了item的表示
user embedding和item embedding可以在传播过程中用它们相应的邻居来细化
相关方法介绍:
user和item表示的细化的优缺点:
图中的关系越多,会带来不相关的实体,可能会在聚合过程中误导用户的偏好。
基于传播的方法随着图形的变大,模型很难收敛,需要更快的图卷积运算;在每一层随机采样的方法会导致信息的缺失。
优点 | 缺点 | |
---|---|---|
embedding-based | 编码容易 适用大多数场景 | 不能充分挖掘KG中的信息 不适合解释推荐 |
connection-based | 可解释的推荐 | 定义元路径或元图比较繁琐 不同场景元路径不同 大规模数据下计算复杂度高 数据稀疏性问题容易导致路径质量、数量差 |
propagation-based | 可解释的推荐 更充分的挖掘KG中的信息 | 聚合和更新部分需要仔细设计 大规模数据下计算复杂度高 |
常用技巧:
基于Trans系列的KGE方法:
在实际应用中,通常从大数据集中选取一个子集,过滤掉记录较少的user和item,以获得更高质量的数据。
注意: 该论文提及的相关方法将在后续文章中详细介绍,感兴趣的读者可以持续关注。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。