当前位置:   article > 正文

(2)强化学习分类

强化学习分类

一、强化学习分类

1.从学习方式分类:

  • 基于价值的方法:Q学习,学习状态-动作价值函数。
  • 基于策略的方法:策略梯度等,直接学习策略函数。
  • Actor-Critic方法:同时学习价值函数和策略函数。

2.从策略类型分类:

  • 确定性策略:如DDPG,输出确定动作。
  • 随机策略:输出动作概率分布。

3.从环境类型分类:

  • 表格型方法:如Q学习,用于离散小状态空间。
  • 函数逼近方法:如DQN,适用于大状态空间。

4.从决策时间分类:

  • 单步决策:每次决策只关注当前状态。
  • 多步决策:关注当前决策的长期影响。

5.从环境类型分类:

  • 基于模型:先学习环境模型,然后规划。
  • 无模型:直接与环境交互学习

二、各类强化学习分类优缺点

1.学习方式分类:

  • 优点:可以根据任务采用不同学习方式。
  • 缺点:部分方法表示能力有限。
  • 分类依据:考虑如何表达喝优化策略或价值函数。
  • 算法:基于价值的(Q学习),基于策略的(策略梯度),Actor-Critic(A2C)

2.策略类型分类:

  • 优点:匹配适合得策略表示。
  • 缺点:某一类型表示不够灵活。
  • 分类依据:考虑动作空间类型。
  • 算法:确定性策略(DDPG),随机策略(PPO)

3.环境类型分类:

  • 优点:使用合适的状态表示。
  • 缺点:表格型或函数逼近各有局限。
  • 分类依据:考虑状态空间复杂度。
  • 算法:表格型(Q学习),函数逼近(DQN)

4.决策时间分类:

  • 好处:匹配任务的短长期需求。
  • 缺点:单步或多步思考都可能非最优。
  • 分类依据:考虑决策的时间范围。
  • 算法:单步决策,多步决策(蒙特卡洛树搜索)

5.从环境类型分类:

  • 优点:可利用环境模型进行规划。
  • 缺点:对模型准确性敏感。
  • 分类依据:考虑是否可以建模
  • 算法:基于模型(Dyna),无模型

三、各类强化学习在推荐系统中优缺点

1、学习方式分类:

  • (1)基于价值的好处:基于价值可以建模用户购买转换率,收益等长期价值指标。

  • (2)基于价值的缺点:基于价值方法在商品数量非常大时,计算每种商品的Q值非常耗时;。

  • (3)基于策略的好处:基于策略可以直接学会用户-商品映射关系,快速匹配推荐。

  • (4)基于策略的缺点:基于策略方法需要收集大量用户反馈来训练策略,收敛速度慢。

  • 实例:商品数量少时,使用Q学习快速找到每个用户的最优推荐;商品数量多达百万级时,策略学习可以直接输出个性化推荐策略。

2.从策略类型分类

  • (1)基于确定性策略的好处:可以仅推荐一个最匹配的商品,简单直接。
  • (2)基于确定性策略的缺点:限制了商品曝光量,可能错过其他潜在购买。
  • (3)基于随机性策略的好处:随机策略可以增加推荐多样性,提供多个备选。
  • (4)基于随机性策略的缺点:无法确定哪件商品最合适用户。
  • 实例:针对新用户确定推荐热销产品;针对活跃用户采用随机策略增加推荐商品种类。

3.环境类型分类

  • (1)表格型的优点:可以记录老用户所有特征。
  • (2)表格型的缺点:无法扩展到千万用户等级。
  • (3)函数逼近的优点:可以处理数十亿商品和用户。
  • (4)函数逼近的缺点:需要设计复杂的深度神经网络结构。
  • 实例:少量老用户采用表格记忆购买特征;大量新用户采用基于深度学习的推荐算法。

4.决策时间分类

  • (1)多步决策的优点:可以最大化用户长期生命价值。
  • (2)多步决策的缺点:需要计算用户的历史购买轨迹,计算量大。
  • (3)单步的优点:单步决策可以实时快速匹配推荐。
  • (4)单步缺点:容易推荐用户短期内感兴趣但重复度高的商品。
  • 实例:考虑新用户的多步购买意向;针对老用户使用实时单步决策快速匹配。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/467897
推荐阅读
相关标签
  

闽ICP备14008679号