【Reinforcement Learning】什么是强化学习以及算法分类_计算机强化学习

作者：繁依Fanyi0 | 2024-04-22 09:16:52

踩

计算机强化学习

一、什么是强化学习

强化学习是一类算法，让计算机从什么都不懂，通过不断尝试，从错误中学习，找到规律，从而到达目标的过程。围棋机器人AlphaGo就是自己不断尝试，更新自己的行为准则。
计算机需要一位虚拟的老师，他要做的事情就是给行为打分，计算机只需要记住高分和低分对应的行为，下一次只需要执行高分行为就能得到高分（分数导向性）。类似于监督学习中学习正确标签，不同的是，强化学习最开始没有准备好的数据和标签，是在不断的尝试中得到数据和对应的标签（奖励值）。
强化学习是和监督学习、无监督学习并列的第三种机器学习方法，如下图：
在这里插入图片描述

强化学习包含了很多经典的算法（在后面一节会详细说明不同的分类方式）：

通过价值选行为
- Q Learning（表格学习）
- Sarsa（表格学习）
- Deep Q Network（神经网络学习）
直接选行为
- Policy Gradients
想象环境并从中学习
- Model based RL

二、强化学习建模

在这里插入图片描述
强化学习的思路：大脑表示算法执行个体，通过操作个体来做决策，即是选择一个行为（action）；地球表示研究的环境，它有自身的状态（state），当选择行为 $A_t$ 后，环境状态会发生变化，同时得到一个延迟奖励（reward）。然后个体选择下一次的行为，环境状态改变，获得奖励…

三、强化学习方法分类

分类1：不理解环境（Model-Free RL）和理解环境（Model-Based RL）
在这里插入图片描述

Model-Based RL多出一个虚拟环境，方法和Model-Free RL中一样。Model-Based RL具有想象力，通过想象力预判断下一步的行为，而Model-Free RL只能按部就班。

分类2：基于概率（Policy-Based RL）和基于价值（Value-Based RL）
在这里插入图片描述
基于概率的RL可以处理连续的东西，而基于价值不能处理，但是基于概率的缺点是概率更高，不一定会被选中。

分类3：回合更新（Monte-Carlo update）和单步更新（Temporal-Difference update）

单步更新可以边执行边更新。
在这里插入图片描述
分类4：在线学习（On-Policy）和离线学习（Off-Policy）

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/467911