赞
踩
1.从学习方式分类:
2.从策略类型分类:
3.从环境类型分类:
4.从决策时间分类:
5.从环境类型分类:
1.学习方式分类:
2.策略类型分类:
3.环境类型分类:
4.决策时间分类:
5.从环境类型分类:
1、学习方式分类:
(1)基于价值的好处:基于价值可以建模用户购买转换率,收益等长期价值指标。
(2)基于价值的缺点:基于价值方法在商品数量非常大时,计算每种商品的Q值非常耗时;。
(3)基于策略的好处:基于策略可以直接学会用户-商品映射关系,快速匹配推荐。
(4)基于策略的缺点:基于策略方法需要收集大量用户反馈来训练策略,收敛速度慢。
实例:商品数量少时,使用Q学习快速找到每个用户的最优推荐;商品数量多达百万级时,策略学习可以直接输出个性化推荐策略。
2.从策略类型分类
3.环境类型分类
4.决策时间分类
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。