当前位置:   article > 正文

《强化学习》学习(二)——强化学习的结构与实例_强化学习例子

强化学习例子

前言

强化学习就是把行为的学习看成反复试验或试错(Trial and Error)的过程,从而形成对动作的映射,以便对每个特定的环境都会产生一个适当的动作。

定义

具有学习能力的机器称之为Agent

从广义上讲,与Agent交互的物体,包括Agent之外的一切都被称为环境

Agent与环境之间的相互作用是一个持续的过程

强化学习定义:所谓强化学习就是Agent从环境到行为映射的学习,以使奖励信号函数(强化信号)最大。

交互过程:

①Agent感知环境的状态s_{t} \in S,其中S为可能状态的集合;

②Agent基于感知的状态,根据某种策略选择一个动作a_{t} \in A\left(s_{t}\right),(

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/427302
推荐阅读