当前位置:   article > 正文

推荐系统:实时性【特征实时性:客户端实时特征(秒级,实时)、流处理平台(分钟级,近实时)、分布式批处理平台(小时/天级,非实时)】【模型实时性:在线学习、增量更新、全量更新】

实时特征

模型的实时性与模型的训练方式紧密相关,模型的实时性由弱到强的训练方式分别是全量更新,增量更新和在线学习。
在这里插入图片描述
在这里插入图片描述

推荐系统的实时性,包括

  1. 特征实时性:更快捕获/更新用户特征
  2. 模型实时性:更快发现数据趋势

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

一、特征实时性(实时性由强到弱)

在这里插入图片描述

1、客户端实时特征(秒级,实时)

发生在客户端session,实时计算用户特征,可达秒级
在这里插入图片描述

2、流处理平台(分钟级,近实时)

典型的流处理平台像Flink、Spark Streaming,均具备处理某个时间窗口内的数据流的能力,能够统计用户点击行为等特征,并写入Redis,可达分钟级
在这里插入图片描述

3、分布式批处理平台(小时/天级,非实时)

分布式批处理平台(spark, hadoop等)一般处理全量的数据,这个过程中,可能需要准备好并且join多张表,耗费几个小时到天不等。计算得到的特征一般有两个用途:1. 模型训练和离线评估 2. 特征保存到特征数据库,供模型在线推理
在这里插入图片描述

二、模型实时性(实时性由强到弱)

1、在线学习(FTRL)

获得一个样本的同时,更新模型。经典的方案:FTRL。

绝大多数产品对“在线学习”都没有需求;

一般用于电商做“大促”的时候;“大促”的时候用户的喜欢很可能与平时有很大的区别,而且实时变化;
在这里插入图片描述

2、增量更新

将新加入的样本喂给模型,进行训练,往往无法找到全局最优点,所以通常的做法是 n轮增量更新+1轮全量更新

在这里插入图片描述

3、全量更新

在某个时间段,使用落盘的全量样本对模型进行训练。最常用的模型训练方式
在这里插入图片描述

4、局部更新

将模型分为两部分,以较快频率更新需要快速迭代的部分,反之则以较慢频率更新。常见的方案为:预训练Embedding+神经网络,其中,预训练Embedding部分无需快速迭代,而上层神经网络部分更新需要较高的实时性。




参考资料:
推荐系统之实时性
实时推荐系统如何做到实时?
推荐系统模型的实时性

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/1011630
推荐阅读
相关标签
  

闽ICP备14008679号