当前位置:   article > 正文

推荐系统项目基础(一)推荐系统基本概念_推荐系统中用户和项目啥意思

推荐系统中用户和项目啥意思

经典的架构Lamda

大数据处理框架
在这里插入图片描述

在这里插入图片描述

Lambda 架构总共由三层系统组成:批处理层(Batch Layer),速度处理层(Speed Layer),以及用于响应查询的服务层(Serving Layer)。

批处理层使用可处理大量数据的分布式处理系统预先计算结果。它通过处理所有的已有历史数据来实现数据的准确性。这意味着它是基于完整的数据集来重新计算的,能够修复任何错误,然后更新现有的数据视图。输出通常存储在只读数据库中,更新则完全取代现有的预先计算好的视图。

速度处理层会实时处理新来的大数据。

举例来说:
广告投放预测这种推荐系统一般都会用到Lambda架构。一般能做精准广告投放的公司都会拥有海量用户特征、用户历史浏览记录和网页类型分类这些历史数据的。业界比较流行的做法有在批处理层用Alternating Least Squares (ALS)算法,也就是Collaborative Filtering协同过滤算法,可以得出与用户特性一致其他用户感兴趣的广告类型,也可以得出和用户感兴趣类型的广告相似的广告,而用k-means也可以对客户感兴趣的广告类型进行分类。即,通过批处理得到总体数据的分类模型。

在速度层中根据用户的实时浏览网页类型在之前分好类的广告中寻找一些top K的广告出来。最终服务层可以结合速度层的top K广告和批处理层中分类好的点击率高的相似广告,做出选择投放给用户。即,通过速度层通过实时数据进行处理得到实时的计算数据,与批处理层的数据同时进行处理。

推荐算法架构

在这里插入图片描述

召回阶段(海选)

召回是从全局的item库中选取和当前推荐被用户(根据用户属性,历史行为等信息)相关的一部分作为候选集。

召回阶段的意义:

召回阶段是整个推荐,搜索中的第一步骤,它的输出作为后续步骤(排序,策略调整)的输入,最终展示给用户的item数据是这个集合的子集。召回太多,导致后续的排序精细化排序过程计算压力大,用户被“读懂”的幸福感降低;召回太少,用户看到的内容太少,不利于用户和平台发生转化。所以召回决定着推荐,搜索的天花板。

排序阶段

CTR预估(点击率预估,使用LR算法)估计用户是否会点击某个商品,需要用户的点击策略。

策略调整

在这里插入图片描述

推荐系统的系统构建流程

  • 数据收集

    • 显形评分
    • 隐形数据
  • 特征工程

    • 协同过滤:用户-物品 评分矩阵
    • 基于内容:分词,tf-idf word2vec
  • 训练模型

    • 协同过滤
      • KNN
      • 矩阵分解
  • 评估,模型上线

推荐系统的评估

显示反馈与隐式反馈

在这里插入图片描述

准确度

通过RMSE与MAE进行评价,这个一般应用于离线进行分析。

召回率

覆盖率

信息熵,推荐的物品越多越好。

多样性与新颖性

往往会牺牲准确性。根据历史行为预测用户对某个产品的喜爱程度。

Exploitation&Exploration 探索与利用

Exploitation 开发利用,选择现在可能最佳的方案

Exploration 选择现在不确定的一些方案

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/375266
推荐阅读
  

闽ICP备14008679号