当前位置:   article > 正文

AI学习01 《强化学习》学习笔记-第一章 强化学习概述_ai强化学习

ai强化学习

本篇仅记录学习笔记。

强化学习方法起源于动物心理学的相关原理,模仿人类和动物学习的试错机制,是一种通过与环境交互,学习状态到行为的映射关系,以获得最大累积期望汇报的方法。

1 强化学习的主要组成

  • 智能体
    • 策略
    • 值函数
    • 模型
  • 环境

强化学习、监督学习与非监督学习

机器学习实际上有三大分类:监督学习、非监督学习和强化学习。

2 强化学习的分类

根据是否建立环境动力学的模型划分为模型方法和无模型方法。

根据不同的估计方法可以把强化学习方法分为基于值函数的方法、基于策略的方法和行动者-评论家方法。

  • 基于值函数的方法,求解时候仅估计状态值函数,如动态规划方法、蒙特卡罗方法、时序差分方法、值函数逼近法等。
  • 基于策略的方法则直接通过求解策略函数产生,包括蒙特卡罗策略梯度、时序差分策略梯度等。
  • 行动者-评论家方法是二者的结合。

3 强化学习的重要概念

3.1 学习与规划

3.2 探索与利用

3.3 预测与控制

制作软件 : • GitMind  点击可全平台使用

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/750347
推荐阅读
相关标签
  

闽ICP备14008679号