赞
踩
【前沿RS的三大问题】可扩展性、稀疏性、冷启动
(1)团队分工
(2)推荐算法工程师的核心素质:
(3)推荐算法工程师的工作流程:
大厂业务场景复杂、数据量大,很多时候挖地基开始研发RS,中小厂则是以先做出来、快速达到baseline后迭代为主要目标,选择开源项目需要选择自己熟悉的语言、大公司背书的、有成功实施过的、有活跃社区氛围等。
两个思维模式:目标思维和不确定思维:
基于内容的推荐,主要工作集中在处理文本,或者把数据视为文本去处理。文本分析相关的工作就是将非结构化的文本转换为结构化。主要的工作就是三类:主题模型、词嵌入、文本分类。
这其中 FastText 的词嵌入和 Word2vec 的词嵌入是一样的,但 FastText 还提供分类功能,这个分类非常有优势,效果几乎等同于 CNN,但效率却和线性模型一样,在实际项目中久经考验。LightLDA 和 DMWE 都是微软开源的机器学习工具包。
虽然是深度学习时代了,但是传统协同过滤和矩阵分解很成熟。基于用户、基于物品的协同过滤,矩阵分解,都依赖对用户物品关系矩阵的利用,常用的有:
KNN 相似度计算;SVD 矩阵分解;SVD++ 矩阵分解;ALS 矩阵分解;BPR 矩阵分解;低维稠密向量近邻搜索。
最初的鼻祖算法是ALS+MLP,即用户向量和物品向量分别经过全连接层(dense layer,线性层+非线性层)后的结果,进行点乘且sigmoid运算,通过损失函数计算后反向传播更新参数,进行评分的预测。
可以结合知识图谱 社交网络的推荐:
促排技术迭代图:
精排模型迭代图:
(1)完整指的是包含推荐算法实现、存储、接口。可以选择各个模块的开源项目,再将其组合成自己的推荐系统,便于诊断错误。
1)猜你喜欢:各种召回方法,多路召回策略。
2)个性推荐:CTR排序,主流是基于深度学习方法,如下图所示:
上图的Java jetty推荐服务器内部专门开发特征加工模块,进行一些人工的处理。比如点击率特征,实际上“点击”会包含多种点击行为,各种行为如何融合,需要灵活配置。既不能放在离线存(更新不便),也不能放在tf serving里(逻辑多了太慢)
数据采集,分为三种用途:
包括数据模型、数据存储、元素、怎么收集、质量检验等部分。
Netflix(一家流媒体公司) 的推荐系统的经典架构图,判断哪些是数据部分,哪些是模型部分。
很多高大上ppt会介绍用户画像,用标签云绘制人形状,周围列出若干人口统计学属性,以表达用户画像概念,看似炫酷但没啥用。在算法角度,用户向量化后的结果即user profile(user embedding)。一般全量item很多,无法为每个用户计算对全部item的评分,所以需要先召回后排序,user embedding一般用在召回。
用户这一端比如说有:注册资料中的姓名、个人签名;发表的评论、动态、日记等;聊天记录(不要慌,我举个例子而已,你在微信上说的话还是安全的)。
物品这一端比如说有:物品的标题、描述;物品本身的内容(一般指新闻资讯类);物品的其他基本属性的文本。文本数据是互联网产品中最常见的信息表达形式,数量多、处理快、存储小。
[1] GBDT+LR原论文:http://quinonero.net/Publications/predicting-clicks-facebook.pdf
[2] 推荐系统 贝壳算法负责人.陈开江
[3] Bag of Tricks for Efficient Text Classification.Facebook(fasttext训练词嵌入向量)
[4] The Learning Behind Gmail Priority Inbox.Google(介绍早期Gmail基于文本和用户行为建模思路)
[5] Recommender Systems Handbook(第三章,第九章)
[6] 《文本上的算法: 深入浅出自然语言处理》
[7] LDA 数学八卦.Rickjin(@靳志辉)
[8] Amazon.com recommendations: item-to-item collaborative filtering
[9] Slope One Predictors for Online Rating-Based Collaborative Filtering(Slope One算法)
[10] Item-Based Collaborative Filtering Recommendation Algorithms
[11] Matrix Factorization and Collaborative Filtering
[12] BPR- Bayesian Personalized Ranking from Implicit Feedback(更关注推荐结果的排序好坏)
[13] Collaborative Filtering for Implicit Feedback Datasets.Yifan Hu(处理隐式反馈行为的CF模型)
[14] Matrix Factorization Techniques For Recommender Systems
[15] Adaptive Bound Optimization for Online Convex Optimization(FTRL,CTR优化)
[16] Introduction to Bandits- Algorithms and Theory Part 1- Bandits with small sets of actions
[17] An Empirical Exploration of Recurrent Network Architectures
[18] TencentRec:Real-time Stream Recommendation in Practice
[19] Pattern Recognization and Machine Learning
[20] 对象存储 S3 在分布式文件系统中的应用
[21] System Architectures for Personalization and Recommendation
[22] 回顾经典,Netflix的推荐系统架构.王喆
[23] paddle.在工业实践中的推荐系统
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。