当前位置:   article > 正文

【协同过滤】UserCF协同过滤方法简介_相 余弦相似度, 尔逊相关系数通过使 户平均分对各独评分进修正,减了的影响。

相 余弦相似度, 尔逊相关系数通过使 户平均分对各独评分进修正,减了的影响。

一、协同过滤方法

顾名思义,“协同过滤”就是协同⼤家的反馈、评价和意见⼀起对 海量的信息进⾏过滤,从海量信息中筛选出⽬标⽤户可能感兴趣的信息的推荐过程。

二、UserCF协同过滤算法过程

图2-2描述了⼀个电商⽹站场景下的协同过滤推荐过程,其推荐过 程按照图2-2(a)~(f)的顺序共分为6步。

  1. 明确商品库中的数据有哪些:电商⽹站的商品库⾥⼀共有4件商品:游戏机、某⼩说、某 杂志和某品牌电视机。
  2. 明确任务:⽤户X访问该电商⽹站,电商⽹站的推荐系统需要决定是否 推荐电视机给⽤户X。换⾔之,推荐系统需要预测⽤户X是否喜欢该品牌的电视机。为了进⾏这项预测,可以利⽤的数据有⽤户X对其他商品 的历史评价数据,以及其他⽤户对这些商品的历史评价数据。图2-2 (b)中⽤绿⾊“点赞”标志表⽰⽤户对商品的好评,⽤红⾊“踩”的标志 表⽰差评。可以看到,⽤户、商品和评价记录构成了带有标识的有向图。
  3. 构建共现矩阵:为便于计算,将有向图转换成矩阵的形式(被称为“共现矩 阵”),⽤户作为矩阵⾏坐标,商品作为列坐标,将“点赞”和“踩”的⽤ 户⾏为数据转换为矩阵中相应的元素值。这⾥将“点赞”的值设为1, 将“踩”的值设为-1,“没有数据”置为0。
  4. 计算用户的相似性:⽣成共现矩阵之后,推荐问题就转换成了预测矩阵中问号元 素(图2-2(d)所⽰)的值的问题。既然是“协同”过滤,⽤户理应考虑 与⾃⼰兴趣相似的⽤户的意见。因此,预测的第⼀步就是找到与⽤户X 兴趣最相似的n(Top n⽤户,这⾥的n是⼀个超参数)个⽤户,然后综 合相似⽤户对“电视机”的评价,得出⽤户X对“电视机”评价的预测。
  5. 根据TopN用户加权平均:从共现矩阵中可知,⽤户 B和⽤户 C由于跟⽤户 X的⾏向量 近似,被选为Top n(这⾥假设n取2)相似⽤户,由图2-2(e)可知, ⽤户 B和⽤户C对“电视机”的评价都是负⾯的。
  6. 计算用户评分进行预测:相似⽤户对“电视机”的评价是负⾯的,因此可预测⽤户X 对“电视机”的评价也是负⾯的。在实际的推荐过程中,推荐系统不会 向⽤户X推荐“电视机”这⼀物品。

以上描述了协同过滤的算法流程。

三、用户相似度计算

在协同过滤的过程中,⽤户相似度的计算是算法中最关键的⼀ 步。共现矩阵中的⾏向量代表相应⽤户的⽤ 户向量。那么,计算⽤户i和⽤户j的相似度问题,就是计算⽤户向量i和 ⽤户向量j之间的相似度,两个向量之间常⽤的相似度计算⽅法有如下 ⼏种。

3.1、余弦相似度

余弦相似度衡量了⽤户向量i和⽤户向量j之间的向量夹⾓⼤⼩。显然,夹⾓越⼩,证明余弦相似度越⼤,两个⽤户越相似。

3.2、⽪尔逊相关系数

相⽐余弦相似度,⽪尔逊相关系数通过使⽤⽤户平均分对各独⽴评分进⾏修正,减⼩了⽤ 户评分偏置的影响。其中,Ri,p代表⽤户i对物品p的评分。 Ri代表⽤户i对所有物品的平均评分,P代表所有物品的集合。

3.3、⽪尔逊相关系数改编版

基于⽪尔逊系数的思路,还可以通过引⼊物品平均分的⽅ 式,减少物品评分偏置对结果的影响

其中, Rp代表物品p得到所有评分的平均分。

四、最终结果的排序

假设“⽬标⽤户与其相似⽤户的喜好是相似的”,可根据相 似⽤户的已有评价对⽬标⽤户的偏好进⾏预测。在获得Top N相似⽤户之后,利⽤⽤户相似度和相似⽤户的评价的加权平均获得⽬标⽤户的评价预测:

其中,权重wu,s是⽤户u和⽤户s的相似度,Rs,p是⽤户s对物品p 的评分。

在获得⽤户u对不同物品的评价预测后,最终的推荐列表根据预测 得分进⾏排序即可得到。⾄此,完成协同过滤的全部推荐过程。

五、主要缺点

  • 在互联⽹应⽤的场景下,⽤户数往往远⼤于物品数,⽽ User CF 需要维护⽤户相似度矩阵以便快速找出To p n相似⽤户。该⽤户相 似度矩阵的存储开销⾮常⼤,⽽且随着业务的发展,⽤户数的增长会导致⽤户相似度矩阵的空间复杂度以n ^2的速度快速增长,这是在线存储系统难以承受的扩展速度。
  • ⽤户的历史数据向量往往⾮常稀疏,对于只有⼏次购买或者 点击⾏为的⽤户来说,找到相似⽤户的准确度是⾮常低的,这导致 Use rCF 不适⽤于那些正反馈获取较困难的应⽤场景(如酒店预定、⼤件商 品购买等低频应⽤)。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/627136
推荐阅读
相关标签
  

闽ICP备14008679号