赞
踩
Embedding+MLP 主要是由 Embedding 部分和 MLP 部分这两部分组成,使用 Embedding 层是为了将类别型特征转换成 Embedding 向量,MLP 部分是通过多层神经网络拟合优化目标。——用于广告推荐。
深度学习模型DeepCrossing——一个经典的Embedding+MLP模型结构——微软提出。属于Embedding+MLP模型的进阶,在 Embedding + MLP 的基础上增加了交叉层,以更好地模拟特征之间的高阶交互。
推荐算法面临一个和搜索排序系统一个类似的挑战——记忆性和泛化性的权衡。
记忆能力:可以被理解为模型直接学习并利用历史数据中物品或者特征的“共现频率”的能力。也可以简单地理解成对商品或者是特征之间成对出现的一种学习,由于用户的历史行为特征是非常强的特征,特征之间的直接线性关联,对于特征间的简单关系很有效。
泛化能力:可以被理解为模型传递特征的相关性,以及发掘稀疏甚至从未出现过的稀有特征与最终标签相关性的能力。对于泛化能力来说,它的主要来源是特征之间的相关性以及传递,捕捉复杂特征组合中的隐形关系、非线性关系。利用特征之间的传递性,就可以探索一些历史数据当中很少出现的特征组合,获得很强的泛化能力。
GooglePlay提出的Wide&Deep是比较经典的一个深度学习模型,它使模型既具有想象力又具有记忆力——线性模型(Wide)使模型既具有记忆力和深度神经网络(Deep)使模型既具有泛化性。
Wide&Deep架构示意图
Wide&Deep模型的工作流程:
Wide 部分
特征包括:用户的年龄、性别、电影类型、导演等。
这些特征之间可能有直接的关系,比如年轻观众可能更喜欢动作片。
使用Wide部分(例如逻辑回归)来捕捉这些直接关系。
Deep 部分
特征包括:用户的观看历史、评分历史等。
这些特征之间的关系更为复杂,例如用户观看历史中的模式可能是非线性的。
使用Deep部分(例如多层神经网络)来学习这些复杂的模式。
如何工作
输入:用户特征和电影特征作为输入。
Wide 部分:直接使用特征进行线性预测。
Deep 部分:使用神经网络学习特征间的非线性关系。
合并:Wide和Deep的预测结果在最后一层合并。
输出:预测用户是否会喜欢这部电影。
结果
预测:结合了记忆性(Wide部分)和泛化性(Deep部分),可以更准确地预测用户喜好。
优势:能够处理简单和复杂的关系,提高推荐系统的准确性。
DeepFM是由哈工大和华为公司联合提出的深度学习模型。DeepFM模型包含因子分解机 (FM) 和深度神经网络 (DNN)。
DeepFM架构示意图
假设我们有一个推荐系统,需要预测用户是否会点击某个广告。我们的特征包括用户的年龄、性别、所在城市、广告类型等。
DeepFM 的FM部分会考虑年龄与所在城市的交互效应。例如,年龄较大的用户在某些城市可能更倾向于点击某种类型的广告。
Wide & Deep 的Wide部分仅考虑年龄、性别、所在城市等特征各自对点击率的贡献,而不考虑它们之间的交互。
这两种模型各有优势,数据集非常稀疏且需要捕捉复杂的特征交互,那么DeepFM可能更适合;数据集包含丰富的特征,并希望通过显式特征工程来捕捉特征间的交互,那么Wide & Deep可能更适合。
NeuralCF 结合了传统矩阵分解的优点(记忆性)和深度学习的能力(泛化能力),通过MLP代替内积操作来提高推荐准确性——新加坡国立学者提出。
NeuralCF的模型结构图 (出自论文Neural Collaborative Filtering)
最经典的是输入用户和物品id,转化成One-hot编码后经过简单的Embedding后生成稠密向量,然后将用户塔和物品塔拼接一起,送进MLP层中充分交叉,获取更高阶的特征,然后输出。
双塔模型是在经典 NeuralCF 基础上的扩展,其中增加了更多的特征信息,并且在每个塔内进行了更充分的特征交叉。这种扩展能够使模型更好地理解用户和物品之间的复杂关系,提高推荐的准确性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。