当前位置:   article > 正文

【Reinforcement Learning】什么是强化学习以及算法分类_计算机强化学习

计算机强化学习

一、什么是强化学习

强化学习是一类算法,让计算机从什么都不懂,通过不断尝试,从错误中学习,找到规律,从而到达目标的过程。围棋机器人AlphaGo就是自己不断尝试,更新自己的行为准则。
计算机需要一位虚拟的老师,他要做的事情就是给行为打分,计算机只需要记住高分和低分对应的行为,下一次只需要执行高分行为就能得到高分(分数导向性)。类似于监督学习中学习正确标签,不同的是,强化学习最开始没有准备好的数据和标签,是在不断的尝试中得到数据和对应的标签(奖励值)。
强化学习是和监督学习、无监督学习并列的第三种机器学习方法,如下图:
在这里插入图片描述

强化学习包含了很多经典的算法(在后面一节会详细说明不同的分类方式):

  • 通过价值选行为
    • Q Learning(表格学习)
    • Sarsa(表格学习)
    • Deep Q Network(神经网络学习)
  • 直接选行为
    • Policy Gradients
  • 想象环境并从中学习
    • Model based RL

二、强化学习建模

在这里插入图片描述
强化学习的思路:大脑表示算法执行个体,通过操作个体来做决策,即是选择一个行为(action);地球表示研究的环境,它有自身的状态(state),当选择行为 A t A_t At后,环境状态会发生变化,同时得到一个延迟奖励(reward)。然后个体选择下一次的行为,环境状态改变,获得奖励…

三、强化学习方法分类

分类1:不理解环境(Model-Free RL)和理解环境(Model-Based RL)
在这里插入图片描述
在这里插入图片描述
Model-Based RL多出一个虚拟环境,方法和Model-Free RL中一样。Model-Based RL具有想象力,通过想象力预判断下一步的行为,而Model-Free RL只能按部就班。
在这里插入图片描述
分类2:基于概率(Policy-Based RL)和基于价值(Value-Based RL)
在这里插入图片描述
基于概率的RL可以处理连续的东西,而基于价值不能处理,但是基于概率的缺点是概率更高,不一定会被选中。
在这里插入图片描述
分类3:回合更新(Monte-Carlo update)和单步更新(Temporal-Difference update)
在这里插入图片描述
单步更新可以边执行边更新。
在这里插入图片描述
分类4:在线学习(On-Policy)和离线学习(Off-Policy)
在这里插入图片描述
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/467911
推荐阅读
相关标签
  

闽ICP备14008679号